在这里,我们描述了一些可以使用单细胞RNA测序数据进行的其他分析。这包括检测基因之间的显著相关性,并从基因表达基质中回归细胞周期的影响。
本工作流程中使用的所有软件包均可从综合R档案网络(https://cran.r-project.org)或Bioconductor计划(//www.andersvercelli.com).所使用的软件包的具体版本号如下所示,以及R安装的版本。
sessionInfo ()
## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] scran_1.24.0 scater_1.24.0 [3] ggplot2_3.3.5 scuttle_1.6.0 # # [5] SingleCellExperiment_1.18.0 SummarizedExperiment_1.26.0 # # [7] Biobase_2.56.0 GenomicRanges_1.48.0 # # [9] GenomeInfoDb_1.32.1 IRanges_2.30.0 # # [11] S4Vectors_0.34.0 BiocGenerics_0.42.0 # # [13] MatrixGenerics_1.8.0 matrixStats_0.62.0 # # [15] readxl_1.4.0 R.utils_2.11.0 # # [17] R.oo_1.24.0 R.methodsS3_1.8.1 # # [19] BiocFileCache_2.4.0 dbplyr_2.1.1 # # [21] knitr_1.39 BiocStyle_2.24.0 # # # #加载(而不是通过一个名称空间附):## [1] bitops_1.0-7 bit64_4.0.5 ## [3] filelock_1.0.2 httr_1.4.2 ## [7] utf8_1.2.2 R6_2.5.1 ## [9] irlba_2.3.5 vipor_0.4.5 ## [13] withr_2. 1.2 colorspace_2.0-3 ## [15] gridextra_3 . 2.3 bit_4.0.4 ## [17] curl_4.3.2 compiler_4.2.0 ## [15] DelayedArray_0.22.0 labeling_0.4.2 ## [23] bookdown_0.26 sass_0.4.1 ## [25] scales_1.2.0 rappdirs_0.6.29 ## [29]rmarkdown_2.14 XVector_0.36.0 # # [31] pkgconfig_2.0.3 htmltools_0.5.2 # # [33] sparseMatrixStats_1.8.0 highr_0.9 # # [35] limma_3.52.0 fastmap_1.1.0 # # [37] rlang_1.0.2 RSQLite_2.2.12 # # [39] DelayedMatrixStats_1.18.0 farver_2.1.0 # # [41] jquerylib_0.1.4 generics_0.1.2 # # [43] jsonlite_1.8.0 BiocParallel_1.30.0 # # [45] dplyr_1.0.9 rcurl_1.98 - 1.6 # # [47] magrittr_2.0.3 BiocSingular_1.12.0 # # [49] GenomeInfoDbData_1.2.8 Matrix_1.4-1 # # [51] Rcpp_1.0.8.3 ggbeeswarm_0.6.0 # # [53] munsell_0.5.0fansi_1.0.3 ## [57] edgeR_3.38.0 stringi_1.7.6 ## [59] yaml_2.3.5 zlibbioc_1.42.0 ## [61] grid_4.2.0 blob_1.2.3 ## [63] dqrng_0.3.0 parallel_2.0 ## [65] ggrepel_0.9.1 crayon_1.5.1 ## [67] lattice_0.20-45 cowplot_1.1.1 ## [71] locfit_1. 1.5-9.5 metapod_1.4.0 ## [73] pillar_1.7.0 igraph_1.3.1 ## [75] codetools_0.2-18 ScaledMatrix_1.4.0 ## [77] glue_1.6.2 evaluate_0.15 ## [81] cellranger_1.1.0 gtable_0.3.0 ## [83] purrr_0.3.4 assertthat_0.2.1 ## [85] cachem_1.0.6 xfun_0.30 ## [87] rsvd_1.0.5 viridisLite_0.4.0 ## [89] tibble_3.1.6 beeswarm_0.4.0 ## [91] memoise_2.0.1 cluster_2.1.3 ## [93] statmod_1.4.36 bluster_1.6.0 ## [95] ellipsis_0.3.2
安吉尔,P.和M.卡林,1991。Jun, Fos和AP-1复合物在细胞增殖和转化中的作用Biochim。Biophys。学报1072(2-3): 129-57。
布尔根,R., R. Gentleman, W. Huber, 2010。“独立滤波提高了高通量实验的检测能力。”Proc。国家的。学会科学。美国107(21): 9546-51。
菲普森,B. G. K.史密斯,2010。“排列p值永远不应该为零:当随机绘制排列时计算精确的p值。”Stat .。麝猫。摩尔。杂志。9:第39条。
西姆斯,1986。多重显著性检验的改进Bonferroni程序生物统计学73(3): 751-54。
威尔逊,n.k., D. G.肯特,F.比特纳,M.谢哈塔,I. C.麦考利,F. J.卡列罗-涅托,M.桑切斯·卡斯蒂略等。2015。“结合单细胞功能和基因表达分析解决了干细胞群体内的异质性。”细胞干细胞16(6): 712-24。
3.关于丰度过滤的评论
低丰度基因是有问题的,因为零或接近零的数量不包含太多信息,无法进行可靠的统计推断。在涉及假设检验的应用中,这些基因通常不能提供足够的证据来拒绝原假设,但它们仍然增加了多重检验修正的严重程度。计数的离散性也可能干扰统计程序,例如,影响连续近似值的准确性。因此,在下游方法应用之前,低丰度基因通常在许多RNA-seq分析管道中被去除。
过滤策略的“最佳”选择取决于下游应用程序。通常需要一个更激进的过滤器来去除离散性和避免零,例如,为了标准化的目的。相比之下,假设检验的滤波统计量主要要求在原假设下独立于检验统计量(Bourgon, Gentleman, and Huber 2010).考虑到优先级上的这些差异,我们(或相关函数)将在适当的每个步骤中进行筛选,而不是对整个分析应用单个筛选器。例如,
computeSumFactors ()
将应用基于平均计数的某种严格的过滤器,而fitTrendVar ()
将基于平均日志表达式应用相对宽松的筛选器。其他应用程序根本不会进行任何基于丰度的过滤(例如,denoisePCA ()
)来保存低表达基因的生物信号。尽管如此,如果需要进行全局过滤,可以通过简单地将
SingleCellExperiment
对象。下面的例子演示了我们如何可以去除HSC数据集中平均计数小于1的基因。的数量真正的
值demo.keep
对应过滤后保留的行数/基因数。