1概述

在这里,我们描述了一些可以使用单细胞RNA测序数据进行的其他分析。这包括检测基因之间的显著相关性,并从基因表达基质中回归细胞周期的影响。

2用Spearman 's rho识别相关基因对

scRNA-seq数据通常用于识别不同基因表达谱之间的相关性。这是通过计算斯皮尔曼的rho来量化的,它适应表达式值中的非线性关系。基因对之间的非零相关性为它们的共同调控提供了证据。然而,数据中的噪声需要一些统计分析来确定相关性是否显著非零。

为了演示,我们使用correlatePairs在造血干细胞(HSC) Smart-seq2数据集中识别各种组织相容性抗原之间的显著相关性(Wilson et al. 2015).计数从NCBI GEO获得,作为使用登录号的补充文件GSE61533,并用于生成SingleCellExperiment如下图所示。

wilson. library(BiocFileCache) bfc <- BiocFileCache("raw_data", ask=FALSE)fname <- bfcrpath(bfc, file.path("ftp://ftp.ncbi.nlm.nih.gov/geo/series", "GSE61nnn/GSE61533/suppl/GSE61533_HTSEQ_count_results.xls.gz") library(R.utils) wilson.name2 <- "GSE61533_HTSEQ_count_results.xls" gunzip(wilson. utils)fname, destname=wilson.name2, remove=FALSE, override =TRUE) library(readxl)所有。计数<- read_excel(wilson.name2) gene.names <- all。计数$ ID。counts <- as.matrix(all.counts[,-1]) rownames(all.counts) <- gene.names library(singlecel实验)hsc <- singlecel实验(list(counts=all.counts))是。spike <- grepl("^ERCC", rownames(sce.hsc))hsc <- splitAltExps(sce. splitAltExps)hsc ifelse(。穗,"ERCC", "基因"))库(散粒)sce。hsc <- addPerCellQC(sce.hsc)峰值。drop <- quickPerCellQC(colData(sce.hsc))HSC <- sce.hsc[,!Drop $discard]库(scran) scehsc <- computeSumFactors(sce.hsc) sce.hsc。hsc <- logNormCounts(sce.hsc)

每个相关性的显著性是通过排列检验来确定的。对于每一对基因,零假设是两个基因的表达谱是独立的。重新排列概要文件并重新计算相关性将产生一个空分布,该分布用于获得p-value表示每个观察到的相关值(Phipson and Smyth 2010)

set.seed(100) var.cor <- correlatePairs(sce。hsc子集。行= grep(“^ H2 - rownames (sce.hsc)))头(var.cor)
1 H2-Aa H2-Ab1 H2-Eb1 0.529031 4.99524e-08 1.08647e-05 ## 3 H2-Aa H2-Eb1 0.502605 2.84104e-07 4.11951e-05 ## 5 H2-K1 H2-K2 0.346442 6.69501e-04 5.81557e-02 ## 6 H2-K2 H2-Q6 0.339944 8.56575e-04 5.81557e-02

通过将FDR控制在5%来对多个基因对进行多重检测的校正。

$FDR <= 0.05 summary(sig.cor)
模式FALSE TRUE NA's ##逻辑431 4 511

我们还可以计算特定基因对之间的相关性,或者计算两组不同基因对之间的相关性。下面的例子计算之间的相关性”丛书而且小君,二聚形成AP-1转录因子(Angel和Karin 1991)

correlatePairs (sce)。hsc子集。行= cbind(“安全系数”、“君”))
##数据帧,1行5列## gene1 gene2 rho p.value FDR ## <字符> <字符> <数字> <数字> <数字> ## 1 Fos Jun 0.44997 6.0349e-06 6.0349e-06

检查图中的表达式配置文件1证实了这两个基因之间存在一定的相关性。

(嘘)plotExpression (sce库。hsc, features="Fos", x="Jun")
HSC数据集中所有细胞的_Fos_表达与_Jun_表达的对比。

图1:的表达式”丛书密谋反对的表达小君用于HSC数据集中的所有细胞。

使用correlatePairs主要用于鉴定相关基因对进行验证研究。显然,非零相关性并不能为直接的监管相互作用提供证据,更不用说明确的因果关系了。为了构建涉及多个基因的调控网络,我们建议使用专用的包,如WCGNA

Aaron的评论:

3.关于丰度过滤的评论

低丰度基因是有问题的,因为零或接近零的数量不包含太多信息,无法进行可靠的统计推断。在涉及假设检验的应用中,这些基因通常不能提供足够的证据来拒绝原假设,但它们仍然增加了多重检验修正的严重程度。计数的离散性也可能干扰统计程序,例如,影响连续近似值的准确性。因此,在下游方法应用之前,低丰度基因通常在许多RNA-seq分析管道中被去除。

过滤策略的“最佳”选择取决于下游应用程序。通常需要一个更激进的过滤器来去除离散性和避免零,例如,为了标准化的目的。相比之下,假设检验的滤波统计量主要要求在原假设下独立于检验统计量(Bourgon, Gentleman, and Huber 2010).考虑到优先级上的这些差异,我们(或相关函数)将在适当的每个步骤中进行筛选,而不是对整个分析应用单个筛选器。例如,computeSumFactors ()将应用基于平均计数的某种严格的过滤器,而fitTrendVar ()将基于平均日志表达式应用相对宽松的筛选器。其他应用程序根本不会进行任何基于丰度的过滤(例如,denoisePCA ())来保存低表达基因的生物信号。

尽管如此,如果需要进行全局过滤,可以通过简单地将SingleCellExperiment对象。下面的例子演示了我们如何可以去除HSC数据集中平均计数小于1的基因。的数量真正的demo.keep对应过滤后保留的行数/基因数。

ave.counts <- calculateAverage(sce.hsc) demo。Keep <- ave.counts >= 1 filtering .sce.hsc <- sce.hsc[演示。保持,]总结(demo.keep)
##模式FALSE TRUE ##逻辑24377 14029

4结束语

本工作流程中使用的所有软件包均可从综合R档案网络(https://cran.r-project.org)或Bioconductor计划(//www.andersvercelli.com).所使用的软件包的具体版本号如下所示,以及R安装的版本。

sessionInfo ()
## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:# # # # [1] scran_1.24.0 scater_1.24.0 [3] ggplot2_3.3.5 scuttle_1.6.0 # # [5] SingleCellExperiment_1.18.0 SummarizedExperiment_1.26.0 # # [7] Biobase_2.56.0 GenomicRanges_1.48.0 # # [9] GenomeInfoDb_1.32.1 IRanges_2.30.0 # # [11] S4Vectors_0.34.0 BiocGenerics_0.42.0 # # [13] MatrixGenerics_1.8.0 matrixStats_0.62.0 # # [15] readxl_1.4.0 R.utils_2.11.0 # # [17] R.oo_1.24.0 R.methodsS3_1.8.1 # # [19] BiocFileCache_2.4.0 dbplyr_2.1.1 # # [21] knitr_1.39 BiocStyle_2.24.0 # # # #加载(而不是通过一个名称空间附):## [1] bitops_1.0-7 bit64_4.0.5 ## [3] filelock_1.0.2 httr_1.4.2 ## [7] utf8_1.2.2 R6_2.5.1 ## [9] irlba_2.3.5 vipor_0.4.5 ## [13] withr_2. 1.2 colorspace_2.0-3 ## [15] gridextra_3 . 2.3 bit_4.0.4 ## [17] curl_4.3.2 compiler_4.2.0 ## [15] DelayedArray_0.22.0 labeling_0.4.2 ## [23] bookdown_0.26 sass_0.4.1 ## [25] scales_1.2.0 rappdirs_0.6.29 ## [29]rmarkdown_2.14 XVector_0.36.0 # # [31] pkgconfig_2.0.3 htmltools_0.5.2 # # [33] sparseMatrixStats_1.8.0 highr_0.9 # # [35] limma_3.52.0 fastmap_1.1.0 # # [37] rlang_1.0.2 RSQLite_2.2.12 # # [39] DelayedMatrixStats_1.18.0 farver_2.1.0 # # [41] jquerylib_0.1.4 generics_0.1.2 # # [43] jsonlite_1.8.0 BiocParallel_1.30.0 # # [45] dplyr_1.0.9 rcurl_1.98 - 1.6 # # [47] magrittr_2.0.3 BiocSingular_1.12.0 # # [49] GenomeInfoDbData_1.2.8 Matrix_1.4-1 # # [51] Rcpp_1.0.8.3 ggbeeswarm_0.6.0 # # [53] munsell_0.5.0fansi_1.0.3 ## [57] edgeR_3.38.0 stringi_1.7.6 ## [59] yaml_2.3.5 zlibbioc_1.42.0 ## [61] grid_4.2.0 blob_1.2.3 ## [63] dqrng_0.3.0 parallel_2.0 ## [65] ggrepel_0.9.1 crayon_1.5.1 ## [67] lattice_0.20-45 cowplot_1.1.1 ## [71] locfit_1. 1.5-9.5 metapod_1.4.0 ## [73] pillar_1.7.0 igraph_1.3.1 ## [75] codetools_0.2-18 ScaledMatrix_1.4.0 ## [77] glue_1.6.2 evaluate_0.15 ## [81] cellranger_1.1.0 gtable_0.3.0 ## [83] purrr_0.3.4 assertthat_0.2.1 ## [85] cachem_1.0.6 xfun_0.30 ## [87] rsvd_1.0.5 viridisLite_0.4.0 ## [89] tibble_3.1.6 beeswarm_0.4.0 ## [91] memoise_2.0.1 cluster_2.1.3 ## [93] statmod_1.4.36 bluster_1.6.0 ## [95] ellipsis_0.3.2

参考文献

安吉尔,P.和M.卡林,1991。Jun, Fos和AP-1复合物在细胞增殖和转化中的作用Biochim。Biophys。学报1072(2-3): 129-57。

布尔根,R., R. Gentleman, W. Huber, 2010。“独立滤波提高了高通量实验的检测能力。”Proc。国家的。学会科学。美国107(21): 9546-51。

菲普森,B. G. K.史密斯,2010。“排列p值永远不应该为零:当随机绘制排列时计算精确的p值。”Stat .。麝猫。摩尔。杂志。9:第39条。

西姆斯,1986。多重显著性检验的改进Bonferroni程序生物统计学73(3): 751-54。

威尔逊,n.k., D. G.肯特,F.比特纳,M.谢哈塔,I. C.麦考利,F. J.卡列罗-涅托,M.桑切斯·卡斯蒂略等。2015。“结合单细胞功能和基因表达分析解决了干细胞群体内的异质性。”细胞干细胞16(6): 712-24。