分析单细胞RNA-seq数据的进一步策略

艾伦·伦1——戴维斯·麦卡锡2、3以及约翰·c·马里奥尼1、2、4

1英国剑桥癌症研究所，李嘉诚中心，罗宾逊路，剑桥CB2 0RE，英国
2EMBL欧洲生物信息研究所，惠康基因组校区，欣克斯顿，剑桥CB10 1SD，英国
3.圣文森特医学研究所，41维多利亚游行，菲茨罗伊，维多利亚州3065
4威康基金会桑格研究所，威康基因组校区，欣克斯顿，剑桥CB10 1SA，英国

2022-04-29

1概述

在这里，我们描述了一些可以使用单细胞RNA测序数据进行的其他分析。这包括检测基因之间的显著相关性，并从基因表达基质中回归细胞周期的影响。

2用Spearman 's rho识别相关基因对

scRNA-seq数据通常用于识别不同基因表达谱之间的相关性。这是通过计算斯皮尔曼的rho来量化的，它适应表达式值中的非线性关系。基因对之间的非零相关性为它们的共同调控提供了证据。然而，数据中的噪声需要一些统计分析来确定相关性是否显著非零。

为了演示，我们使用correlatePairs在造血干细胞(HSC) Smart-seq2数据集中识别各种组织相容性抗原之间的显著相关性(Wilson et al. 2015)．计数从NCBI GEO获得，作为使用登录号的补充文件GSE61533，并用于生成SingleCellExperiment如下图所示。

wilson. library(BiocFileCache) bfc <- BiocFileCache("raw_data"， ask=FALSE)fname <- bfcrpath(bfc, file.path("ftp://ftp.ncbi.nlm.nih.gov/geo/series"， "GSE61nnn/GSE61533/suppl/GSE61533_HTSEQ_count_results.xls.gz") library(R.utils) wilson.name2 <- "GSE61533_HTSEQ_count_results.xls" gunzip(wilson. utils)fname, destname=wilson.name2, remove=FALSE, override =TRUE) library(readxl)所有。计数<- read_excel(wilson.name2) gene.names <- all。计数$ ID。counts <- as.matrix(all.counts[，-1]) rownames(all.counts) <- gene.names library(singlecel实验)hsc <- singlecel实验(list(counts=all.counts))是。spike <- grepl("^ERCC"， rownames(sce.hsc))hsc <- splitAltExps(sce. splitAltExps)hsc ifelse(。穗，"ERCC"， "基因"))库(散粒)sce。hsc <- addPerCellQC(sce.hsc)峰值。drop <- quickPerCellQC(colData(sce.hsc))HSC <- sce.hsc[，!Drop $discard]库(scran) scehsc <- computeSumFactors(sce.hsc) sce.hsc。hsc <- logNormCounts(sce.hsc)

每个相关性的显著性是通过排列检验来确定的。对于每一对基因，零假设是两个基因的表达谱是独立的。重新排列概要文件并重新计算相关性将产生一个空分布，该分布用于获得p-value表示每个观察到的相关值(Phipson and Smyth 2010)．

set.seed(100) var.cor <- correlatePairs(sce。hsc子集。行= grep(“^ H2 - rownames (sce.hsc)))头(var.cor)

1 H2-Aa H2-Ab1 H2-Eb1 0.529031 4.99524e-08 1.08647e-05 ## 3 H2-Aa H2-Eb1 0.502605 2.84104e-07 4.11951e-05 ## 5 H2-K1 H2-K2 0.346442 6.69501e-04 5.81557e-02 ## 6 H2-K2 H2-Q6 0.339944 8.56575e-04 5.81557e-02

通过将FDR控制在5%来对多个基因对进行多重检测的校正。

$FDR <= 0.05 summary(sig.cor)

模式FALSE TRUE NA's ##逻辑431 4 511

我们还可以计算特定基因对之间的相关性，或者计算两组不同基因对之间的相关性。下面的例子计算之间的相关性”丛书而且小君，二聚形成AP-1转录因子(Angel和Karin 1991)．

correlatePairs (sce)。hsc子集。行= cbind(“安全系数”、“君”))

##数据帧，1行5列## gene1 gene2 rho p.value FDR ## <字符> <字符> <数字> <数字> <数字> ## 1 Fos Jun 0.44997 6.0349e-06 6.0349e-06

检查图中的表达式配置文件1证实了这两个基因之间存在一定的相关性。

(嘘)plotExpression (sce库。hsc, features="Fos"， x="Jun")

图1:的表达式”丛书密谋反对的表达小君用于HSC数据集中的所有细胞。

使用correlatePairs主要用于鉴定相关基因对进行验证研究。显然，非零相关性并不能为直接的监管相互作用提供证据，更不用说明确的因果关系了。为了构建涉及多个基因的调控网络，我们建议使用专用的包，如WCGNA．

Aaron的评论:

我们建议只计算感兴趣的一个已知基因子集之间的相关性先天的或经验定义，如hvg。计算所有基因之间的相关性需要很长时间;不必要地增加多重测试校正的严重程度;并可能优先考虑强但无趣的相关性，例如，在严格共同调控的管家基因之间。
的correlateGenes ()函数可以用于输出correlatePairs ()返回以基因为中心的输出。这计算了一个综合p价值(西梅斯1986年)对于每个基因，表明它是否与任何其他基因显著相关。从统计学的角度来看，当感兴趣的是基因，而不是成对的基因时，这是一种更自然的纠正多重测试的方法。
的有限的字段表示是否p-value为排列数的下界。如果这是真正的对于所选FDR阈值的任何不显著基因，考虑增加排列的数量以提高功率。

3.关于丰度过滤的评论

低丰度基因是有问题的，因为零或接近零的数量不包含太多信息，无法进行可靠的统计推断。在涉及假设检验的应用中，这些基因通常不能提供足够的证据来拒绝原假设，但它们仍然增加了多重检验修正的严重程度。计数的离散性也可能干扰统计程序，例如，影响连续近似值的准确性。因此，在下游方法应用之前，低丰度基因通常在许多RNA-seq分析管道中被去除。

过滤策略的“最佳”选择取决于下游应用程序。通常需要一个更激进的过滤器来去除离散性和避免零，例如，为了标准化的目的。相比之下，假设检验的滤波统计量主要要求在原假设下独立于检验统计量(Bourgon, Gentleman, and Huber 2010)．考虑到优先级上的这些差异，我们(或相关函数)将在适当的每个步骤中进行筛选，而不是对整个分析应用单个筛选器。例如,computeSumFactors ()将应用基于平均计数的某种严格的过滤器，而fitTrendVar ()将基于平均日志表达式应用相对宽松的筛选器。其他应用程序根本不会进行任何基于丰度的过滤(例如，denoisePCA ())来保存低表达基因的生物信号。

尽管如此，如果需要进行全局过滤，可以通过简单地将SingleCellExperiment对象。下面的例子演示了我们如何可以去除HSC数据集中平均计数小于1的基因。的数量真正的值demo.keep对应过滤后保留的行数/基因数。

ave.counts <- calculateAverage(sce.hsc) demo。Keep <- ave.counts >= 1 filtering .sce.hsc <- sce.hsc[演示。保持,]总结(demo.keep)

##模式FALSE TRUE ##逻辑24377 14029

4结束语

本工作流程中使用的所有软件包均可从综合R档案网络(https://cran.r-project.org)或Bioconductor计划(//www.andersvercelli.com)．所使用的软件包的具体版本号如下所示，以及R安装的版本。

sessionInfo ()

## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] scran_1.24.0 scater_1.24.0 [3] ggplot2_3.3.5 scuttle_1.6.0 # # [5] SingleCellExperiment_1.18.0 SummarizedExperiment_1.26.0 # # [7] Biobase_2.56.0 GenomicRanges_1.48.0 # # [9] GenomeInfoDb_1.32.1 IRanges_2.30.0 # # [11] S4Vectors_0.34.0 BiocGenerics_0.42.0 # # [13] MatrixGenerics_1.8.0 matrixStats_0.62.0 # # [15] readxl_1.4.0 R.utils_2.11.0 # # [17] R.oo_1.24.0 R.methodsS3_1.8.1 # # [19] BiocFileCache_2.4.0 dbplyr_2.1.1 # # [21] knitr_1.39 BiocStyle_2.24.0 # # # #加载(而不是通过一个名称空间附):## [1] bitops_1.0-7 bit64_4.0.5 ## [3] filelock_1.0.2 httr_1.4.2 ## [7] utf8_1.2.2 R6_2.5.1 ## [9] irlba_2.3.5 vipor_0.4.5 ## [13] withr_2. 1.2 colorspace_2.0-3 ## [15] gridextra_3 . 2.3 bit_4.0.4 ## [17] curl_4.3.2 compiler_4.2.0 ## [15] DelayedArray_0.22.0 labeling_0.4.2 ## [23] bookdown_0.26 sass_0.4.1 ## [25] scales_1.2.0 rappdirs_0.6.29 ## [29]rmarkdown_2.14 XVector_0.36.0 # # [31] pkgconfig_2.0.3 htmltools_0.5.2 # # [33] sparseMatrixStats_1.8.0 highr_0.9 # # [35] limma_3.52.0 fastmap_1.1.0 # # [37] rlang_1.0.2 RSQLite_2.2.12 # # [39] DelayedMatrixStats_1.18.0 farver_2.1.0 # # [41] jquerylib_0.1.4 generics_0.1.2 # # [43] jsonlite_1.8.0 BiocParallel_1.30.0 # # [45] dplyr_1.0.9 rcurl_1.98 - 1.6 # # [47] magrittr_2.0.3 BiocSingular_1.12.0 # # [49] GenomeInfoDbData_1.2.8 Matrix_1.4-1 # # [51] Rcpp_1.0.8.3 ggbeeswarm_0.6.0 # # [53] munsell_0.5.0fansi_1.0.3 ## [57] edgeR_3.38.0 stringi_1.7.6 ## [59] yaml_2.3.5 zlibbioc_1.42.0 ## [61] grid_4.2.0 blob_1.2.3 ## [63] dqrng_0.3.0 parallel_2.0 ## [65] ggrepel_0.9.1 crayon_1.5.1 ## [67] lattice_0.20-45 cowplot_1.1.1 ## [71] locfit_1. 1.5-9.5 metapod_1.4.0 ## [73] pillar_1.7.0 igraph_1.3.1 ## [75] codetools_0.2-18 ScaledMatrix_1.4.0 ## [77] glue_1.6.2 evaluate_0.15 ## [81] cellranger_1.1.0 gtable_0.3.0 ## [83] purrr_0.3.4 assertthat_0.2.1 ## [85] cachem_1.0.6 xfun_0.30 ## [87] rsvd_1.0.5 viridisLite_0.4.0 ## [89] tibble_3.1.6 beeswarm_0.4.0 ## [91] memoise_2.0.1 cluster_2.1.3 ## [93] statmod_1.4.36 bluster_1.6.0 ## [95] ellipsis_0.3.2

参考文献

安吉尔，P.和M.卡林，1991。Jun, Fos和AP-1复合物在细胞增殖和转化中的作用Biochim。Biophys。学报1072(2-3): 129-57。

布尔根，R.， R. Gentleman, W. Huber, 2010。“独立滤波提高了高通量实验的检测能力。”Proc。国家的。学会科学。美国107(21): 9546-51。

菲普森，B. G. K.史密斯，2010。“排列p值永远不应该为零:当随机绘制排列时计算精确的p值。”Stat .。麝猫。摩尔。杂志。9:第39条。

西姆斯，1986。多重显著性检验的改进Bonferroni程序生物统计学73(3): 751-54。

威尔逊，n.k.， D. G.肯特，F.比特纳，M.谢哈塔，I. C.麦考利，F. J.卡列罗-涅托，M.桑切斯·卡斯蒂略等。2015。“结合单细胞功能和基因表达分析解决了干细胞群体内的异质性。”细胞干细胞16(6): 712-24。