内容

1理论

[幻灯片][]

1.1基准测试:最近的一条推文……

最近的一次推特提供了一个很好的总结,用于基准基因集富集分析方法使用GSEABenchmarkR包中。

库(EnrichmentBrowser)

2实践

数据输入和按摩

library(气道)data(气道)气道$dex <- relevel(气道$dex,“untrt”)

差异表达分析

<- DESeq(des) <- DESeq(des) <- DESeq(des) <- DESeqDataSet(airway, design = ~ cell + dex)
##估算大小因素
# #估计分散
##基因离散估计
# #平均分散关系
##最终离散度估计
拟合模型及测试
res < -结果(des)

向整洁数据的转换

lib (dplyr) library(tibble) tbl <- res %>% as.data.frame() %>% rownames_to_column("ENSEMBL") %>% as_tibble() tbl
## # A tibble: 64102 x 7 ## # ENSEMBL baseMean log2FoldChange lfcSE stat pvalue padj# #        ## 1 ENSG0000000…709。-0.381 0.101 -3.79 1.5e -4 1.28e-3 ## 2 ENSG0000000…0 NA NA NA NA NA NA NA NA ## 3 ENSG0000000…0.207 0.112 1.84 6.53e-2 1.97e-1 ## 4 ENSG0000000…237。0.0379 0.143 0.264 7.92e-1 9.11e-1 ## 5 ENSG0000000…1.38e-6 1.82e-5 ## 8 ENSG0000000…-0.241 0.0887 -2.72 6.58e-3 3.28e-2 ## 9 ENSG0000000…610-0.0476 0.167 -0.286 7.75e-1 9.03e-1 ## 10 ENSG0000000…-0.500 0.121 -4.14 3.48e-5 3.42e-4 ## #

2.1示例:超几何测试使用limma:: goana ()

需要可以标识符

library(org.Hs.eg.db) tbl <- tbl %>%突变(ENTREZID = mapIds(org.Hs.eg.db, ENSEMBL, "ENTREZID", "ENSEMBL") %>% unname()))
## 'select()'返回1:键和列之间的多个映射
资源描述
## # A tibble: 64102 x 8 ## # ENSEMBL baseMean log2FoldChange lfcSE stat pvalue padj# #        ## 1 ENSG00…-0.381 0.101 -3.79 1.5e -4 1.28e-3 ## 2 ENSG00…0 NA NA NA NA NA NA ## 3 ENSG00…0.207 0.112 1.84 6.53e-2 1.97e-1 ## 4 ENSG00…0.0379 0.143 0.264 7.92e-1 9.11e-1 ## 5 ENSG00…1.38e-6 1.82e-5 ## 8 ENSG00…-0.241 0.0887 -2.72 6.58e-3 3.28e-2 ## 9 ENSG00…610-0.0476 0.167 -0.286 7.75e-1 9.03e-1 ## 10 ENSG00…-0.500 0.121 -4.14 3.48e-5 3.42e-4 ## #

宇宙-必须对DE可测试

tbl <- tbl %>% filter(!is.na(padj), !is.na(ENTREZID)) tbl
## # A tibble: 14550 x 8 ## # ENSEMBL baseMean log2FoldChange lfcSE stat pvalue padj ENTREZID ##         ## 1 ENSG0000…-0.381 0.101 -3.79 1.52e-4 1.28e-3 7105 ## 2 ENSG0000…0.207 0.112 1.84 6.53e-2 1.97e-1 8813 ## 3 ENSG0000…237。0.0379 0.143 0.264 7.92e-1 9.11e-1 55732 ## 5 ENSG0000…1.38e-6 1.82e-5 3075 ## 6 ENSG0000…-0.241 0.0887 -2.72 6.58e-3 3.28e-2 2519 ## 7 ENSG0000…610-0.0476 0.167 -0.286 7.75e-1 9.03e-1 2729 ## 8 ENSG0000…369。-0.500 0.121 -4.14 3.48e-5 3.42e-4 4800 ## 9 ENSG0000…-0.124 0.180 -0.689 4.91e-1 7.24e-1 90529 ## 10 ENSG0000…-0.0411 0.103 -0.400 6.89e-1 8.57e-1 57185 ## #

limma:: goana ()——超几何

library(limma) go <- goana(tbl$ENTREZID[tbl$padj < .05], tbl$ENTREZID, "Hs") %>% as_tibble()

嗯,goana ()返回GO项,但我们还需要GO标识符

if (go .db) go <- go %>% mutate(GOID = mapIds(go .db, .$Term, "GOID", " Term ") %>% unname()) %>% dplyr::select(GOID, everything()) %>% arrange(P.DE)
## 'select()'返回键和列之间的1:1映射

完整性检查

go %>%滤镜(grepl(“糖皮质激素”,术语))
## # A tibble:22 x 6 # # GOID项安大略省的N DE P.DE # # <空空的> <空空的> <空空的> <双> <双> <双> # # 1:0051……对糖皮质激素BP 92 43 1.11 e-5 # # 2: 0071细胞对糖皮质激素…BP 42 21 6.42军医# # 3:2000……积极监管glucocortico BP 2 2 6.64依照# # 4:2000……糖皮质激素调节的感受……BP 8 4 1.25 e 1 # # 5: 0006…糖皮质激素生物合成过程BP 8 4 1.25 e 1 # # 6: 0043……糖皮质激素介导信号p BP 3 2 1.65 e 1 # # 7: 0008……糖皮质激素代谢过程BP 13 5 2.26 e 1 # # 8:糖皮质激素受体活动MF 0004…1 2.58 e 1 # # 9: 0031负调节glucocortico……BP 4 2 2.75 e 1 # # 10: 0031…负面的监管糖皮质激素…BP 4 2 2.75e-1 ## #…再加12行

哪些基因是固定的?

genesets <- AnnotationDbi::select(org.Hs.eg.db, tbl$ENTREZID, "GO", "ENTREZID") %>% as_tibble() %>% dplyr::select(ENTREZID, GO,本体)%>% distinct()
## 'select()'返回键和列之间的many:many映射
genesets
# # #一个宠物猫:191100 x 3 # # ENTREZID本体去# # <空空的> <空空的> < >从而向# # 7105:0005515 # 7105 # 2:曼氏金融0039532 BP # # 7105: 0043123 BP # # 7105: 0070062 CC # # 7105: 8813 BP # # 6 1901223: 0004169 # 8813 # 7:曼氏金融8813 MF # # 8 0004582: 8813 # # 9曼氏金融0005515:0005634 CC # # 8813: 0005634 CC  ## # ... 与191090多行

3.出处

sessionInfo ()
## R version 3.6.0补丁(2019-04-26 r76431) ##运行在:macOS High Sierra 10.13.6 ## ## Matrix products: default ## BLAS: /Users/ma38727/bin/R-3-6-branch/lib/libRblas. php中。## libRlapack: /Users/ma38727/bin/R-3-6-branch/lib/libRlapackdylib # # # #语言环境:# # [1]en_US.UTF-8 / en_US.UTF-8 en_US.UTF-8 / C / en_US.UTF-8 / en_US。UTF-8 ## ## attached base packages: ## [1] stats4 parallel stats graphics grDevices utils datasets ## [8] methods base ## ##其他附加包:# # # # [1] GO.db_3.8.2 tibble_2.1.3 [3] dplyr_0.8.2 limma_3.41.6 # # [5] org.Hs.eg.db_3.8.2 AnnotationDbi_1.47.0 # # [7] airway_1.5.0 DESeq2_1.25.4 # # [9] EnrichmentBrowser_2.15.4 graph_1.63.0 # # [11] SummarizedExperiment_1.15.5 DelayedArray_0.11.2 # # [13] BiocParallel_1.19.0 matrixStats_0.54.0 # # [15] Biobase_2.45.0 GenomicRanges_1.37.14 # # [17]GenomeInfoDb_1.21.1 IRanges_2.19.10 ## [19] S4Vectors_0.23.17 BiocGenerics_0.31.4 ## [21] BiocStyle_2.13.2 ## ##通过命名空间加载(未附加):# # # # [1] bitops_1.0-6 bit64_0.9-7 RColorBrewer_1.1-2 [4] tools_3.6.0 backports_1.1.4 utf8_1.1.4 # # [7] R6_2.4.0 rpart_4.1-15 Hmisc_4.2-0 # # [10] DBI_1.0.0 lazyeval_0.2.2 colorspace_1.4-1 # # [13] nnet_7.3-12 tidyselect_0.2.5 gridExtra_2.3 # # [16] bit_1.1-14 compiler_3.6.0 cli_1.1.0 # # [19] htmlTable_1.13.1 bookdown_0.11 KEGGgraph_1.45.0 # # [22]scales_1.0.0 checkmate_1.9.3 genefilter_1.67.1 # # [25] rappdirs_0.3.1 stringr_1.4.0 digest_0.6.19 # # [28] foreign_0.8 - 71 rmarkdown_1.13 XVector_0.25.0 # # [31] base64enc_0.1-3 pkgconfig_2.0.2 htmltools_0.3.6 # # [34] htmlwidgets_1.3 rlang_0.4.0 rstudioapi_0.10 # # [37] RSQLite_2.1.1 acepack_1.4.1 rcurl_1.95 - 4.12 # # [40] magrittr_1.5GenomeInfoDbData_1.2.1 Formula_1.2-3 ## [58] Matrix_1.2-17 fansi_0.4.0 Rcpp_1.0.1 ## [46] munsell_1 .5.0 stringi_1.4.3 yaml_2.2.0 ## [49] zlibbioc_1.31.0 grid_3.6.0 blob_1.1.1 ## [52] crayon_1.3.4 lattice_0.20-38 splines_0 ##[55]注释_1.63.0 locfit_1.5-9.1 zeallot_0.1.0 ## [58] knitr_1.23 pillar_1.4.2 codetools_0.2-16 ## [61]geneplotter_1.63.0 XML_3.98-1.20 glue_1.3.1 ## [64] evaluate_0.14 latticeExtra_0.6-28 data.table_1.12.2 ## [64] BiocManager_1.30.5.1 vctrs_0.1.0 gtable_0.3.0 ## [70] purrr_0.3.2 assertthat_0.2.1 ggplot2_3.2.0 ## [73] xfun_0.8 xtable_1.8-4 survivval_2 .44-1.1 ## [76] memoise_1.1.0 cluster_2.1.0 GSEABase_1.47.0