我们介绍了PAIRADISE(配对复制分析等位基因差异剪接事件),一种从RNA-seq数据中检测等位基因特异性替代剪接(ASAS)的方法。PAIRADISE使用统计模型,在人群中多个个体之间聚集ASAS信号。它将ASAS检测描述为一个统计问题,用于从具有配对复制的RNA-seq数据中识别差异可选剪接。PAIRADISE统计模型适用于许多形式的等位基因特异性异构体变异(例如RNA编辑),并可作为涉及配对复制的RNA-seq研究的通用统计模型。详情如下:https://github.com/Xinglab/PAIRADISE
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("PAIRADISE")
开发版也可以从Github下载。
BiocManager:安装(“hubentu / PAIRADISE”)
库(PAIRADISE)
一个PDseDataSet
类定义为存储拼接计数数据,并包含每个示例的包含计数和跳过计数。一个设计dataframe
描述成对的样本信息。一个整数dataframe
也需要包含和跳过长度。的PDseDataSet
扩展了SummarizedExperiment
类。所有函数SummarizedExperiment
是继承而来的。
下面是一个构造PDseDataSet
有2对样本。
库(abind) icount < -矩阵(1:4,1)scount <——矩阵(8,1)计算< - abind (icount, scount = 3)计算# >,,1 # > # > [1][2][3][4]# > [1]1 2 3 4 #> #> , , 2 # > # >[1][2][3][4] # >[1] 5 6 7 8设计<——data.frame(示例=代表(c (s1, s2), 2),组=代表(c(“T”、“N”),每个= 2))透镜< - data.frame (sLen = 1 l, iLen = 2 l) PDseDataSet(计算、设计、镜头)# >类:PDseDataSet # >暗:1 4 # >元数据(0):# >化验(1):计数# > rownames:零构成了rowData名字# > (2):sLen iLen #> colnames: NULL #> colData names(2):样本组
计数矩阵可以导入为PDseDataSet
直接。
data("sample_dataset") sample_dataset #> ExonID I1 S1 I2 S2 I_len S_len #> 1外显子1 624,661,209 564,450,167 549,468,103 1261,767,325 180 90 #> 2外显子2 963,1139,388 1104,1100,330 1196,938,439 317,374,93 180 90 #> 3外显子3 15,17000,20,100 2,12,1,1,1,6,7,10 274,NA,320,5650 31 #> 4外显子4 3,5,9,9,11,29,3 33 1
PAIRADISE还包括来自Geuvadis和TCGA的两个小样本数据集:
数据(“sample_dataset_CEU”)的数据(“sample_dataset_LUSC”)
“sample_dataset_CEU”数据集是通过分析GEUVADIS CEU数据中的等位基因特异性可选剪接事件生成的。使用rPGA(版本2.0.0)将等位基因特定的读取映射到可选的剪接事件上。然后将映射到两个单倍型上的特定于等位基因的bam文件合并在一起,使用rMATS(3.2.5版)检测可选的剪接事件。第二个LUSC数据集是通过分析TCGA LUSC RNA-seq数据中的肿瘤与相邻对照样本而生成的。
数据的每一行都对应于一个不同的备选剪接事件。数据应该有7列。PAIRADISE的输入数据帧中7列的顺序遵循rMATS软件输出的约定,排列如下:
将数据导入到PDseDataSet
对象。
pdat <- PDseDataSetFromMat(sample_dataset) #>正在加载数据…pdat #> class: PDseDataSet #> dim: 4 8 #> metadata(0): #> assays(1): counts #> rownames(4):外显子1外显子2外显子3外显子4 #> rowData names(2): iLen sLen #> colnames(8): S1。T S2。T…S3。N S4。n# > colData names(2):样本组
pairadise
方法的pairadise
函数实现了PAIRADISE统计模型PDseDataSet
对象。多个处理器可以通过BiocParallel
包中。函数返回一个PDseDataSet
对象的统计估计rowData
.下面是如何使用两个线程运行模型。
pairadise_output <- pairadise(pdat, numCluster = 2)
一个函数结果
可用于计算p值和过滤显著性结果。例如,在FDR为0.01时,可以得到如下显著结果。
res <- results(pairadise_output, p.adj = "BH", sig.level = 0.01) res #> DataFrame with 3行3列#> testStats p.value p.adj #> <数字> <数字> <数字> #>外显子1 9.54941 0.002000136 0.00274910 #>外显子2 9.49366 0.002061827 0.00274910 #>外显子3 12.29846 0.000453331 0.00181333
与详细信息= TRUE
,可以返回更详细的统计估计。
res <- results(pairadise_output, details = TRUE) colnames(res) #> [1] "testStats" "p.value" "mu。”u“s1。”u“s2。”u“s.u“# >[7]“δ”“mu.c”“s1.c”“s2.c”“南”“totalIter“# >[13]“潜伏”“p.adj”res潜[3]# >美元潜伏# >[1][2][3]# >的形式。U 0.857840921 0.899015595 0.9405878997 #> psi2。U 0.001442136 0.006073380 0.0006441722 #> alpha。U 2.281881387 2.292264054 2.2888561292 #> psi1.c 0.824598001 0.878199864 0.9348674453 #> psi2.c 0.001352191 0.007339606 0.0005979513 #> alpha.c 1.552849901 1.975950491 2.6566262109
sessionInfo() #> R version 4.2.1(2022-06-23) #>平台:x86_64-pc-linux-gnu (64-bit) #>运行在:Ubuntu 20.04.5 LTS #> #>矩阵产品:默认#> BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。所以#> LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。so #> #> locale: #> [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# > [3] LC_TIME=en_GB LC_COLLATE= c# > [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 #> [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# > [9] LC_ADDRESS=C LC_TELEPHONE= c# > [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION= c# b> # b>附加基础包:#> [1]stats graphics grDevices utils datasets methods base #> #>其他附加包:#> [1]abind_1.4-5 PAIRADISE_1.14.0 nloptr_2.0.3 BiocStyle_2.26.0 #> #>通过命名空间加载(且未附加):# > [1] XVector_0.38.0 bslib_0.4.0 # > [3] compiler_4.2.1 BiocManager_1.30.19 # > [5] jquerylib_0.1.4 GenomeInfoDb_1.34.0 # > [7] zlibbioc_1.44.0 MatrixGenerics_1.10.0 # > [9] bitops_1.0-7 tools_4.2.1 # > [11] digest_0.6.30 lattice_0.20-45 # > [13] jsonlite_1.8.3 evaluate_0.17 # > [15] rlang_1.0.6 Matrix_1.5-1 # > [17] DelayedArray_0.24.0 cli_3.4.1 # > [19] yaml_2.3.6 parallel_4.2.1 # > [21] xfun_0.34 fastmap_1.1.0 # > [23] GenomeInfoDbData_1.2.9 stringr_1.4.1 # > [25] knitr_1.40 S4Vectors_0.36.0 # > [27]sass_0.4.2 IRanges_2.32.0 #> [29] grid_4.2.1 stats4_4.2.1 #> [31] Biobase_2.58.0 R6_2.5.1 #> [33] BiocParallel_1.32.0 rmarkdown_2.17 #> [33] BiocParallel_1.32.0 rmarkdown_0.29 magrittr_2.0.3 #> [37] GenomicRanges_1.50.0 codetools_0.2-18 #> [39] htmltools_0.5.3 matrixStats_0.62.0 #> [41] BiocGenerics_0.44.0 SummarizedExperiment_1.28.0 #> [43] stringi_1.7.8 RCurl_1.98-1.9 #> [45] cachem_1.0.6