1介绍

我们引入PAIRADISE(成对等位基因的复制分析微分剪接事件),一种方法检测allele-specific可变剪接从RNA-seq数据(研究)。PAIRADISE骨料使用一个统计模型,研究在人群中多个个体的信号。它制定研究检测作为识别的统计问题微分可变剪接与配对RNA-seq数据复制。PAIRADISE统计模型适用于许多形式的allele-specific同种型变化(例如RNA编辑),并且可以作为一个通用的统计模型RNA-seq研究涉及配对复制。更多细节可以发现:https://github.com/Xinglab/PAIRADISE

2安装

  1. 下载包中。
如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(“PAIRADISE”)

开发版本也可以从Github下载。

BiocManager:安装(“hubentu / PAIRADISE”)
  1. 包加载到R会话。
库(PAIRADISE)

3PAIRADISE

3.1PDseDataSet

一个PDseDataSet类是定义存储拼接计数数据,并且包含包容和跳过数量为每个样本。一个设计dataframe需要描述成对样本信息。一个整数dataframe包容和跳过的长度也是必需的。的PDseDataSet扩展了SummarizedExperiment类。所有功能SummarizedExperiment是继承而来的。

这里有一个例子来构造一个PDseDataSet2双样品。

库(abind) icount < -矩阵(1:4,1)scount <——矩阵(8,1)计算< - abind (icount, scount = 3)计算# >,,1 # > # >[1][2][3][4]# >[1]1 2 3 4 # > # >,,2 # > # >[1][2][3][4]# >[1]5 6 7 8设计<——data.frame(示例=代表(c (s1, s2), 2),组=代表(c (“T”、“N”),每个= 2))透镜< - data.frame (sLen = 1 l, iLen = 2 l) PDseDataSet(计算、设计、镜头)# >类:PDseDataSet # >暗:1 4 # >元数据(0):# >化验(1):计数# > rownames:零构成了rowData名称(2):# > sLen iLen # > colnames:零# > colData名称(2):样本组

数矩阵可以作为进口PDseDataSet直接。

数据(sample_dataset) sample_dataset # > ExonID I1和I2 S2 S1 I_len S_len # > 1外显子1 624661209 564450167 549468103 1261,767325 180 90 # > 2外显子2 963年,1139年,388 1104,1100,330 1196,938439 317374,93 180 90 # > 3外显子3 15,17000年,20100年2、12、1、1、6、7,10 274年,NA, 320年,5650 3 1 # > 4外显子4 3、5、9 13日27日4 5、9、9 11日29日3 3 1

从Geuvadis PAIRADISE还包括两个小样本数据集,TCGA:

数据(“sample_dataset_CEU”)的数据(“sample_dataset_LUSC”)

“sample_dataset_CEU”数据集生成通过分析allele-specific GEUVADIS CEU可变剪接事件数据。使用rPGA Allele-specific读取被映射到可变剪接事件(2.0.0版本)。然后allele-specific bam文件映射到两个单合并在一起,以发现可变剪接事件使用rMATS(3.2.5版本)。第二LUSC生成数据集通过分析肿瘤与邻近的控制样本,TCGA LUSC RNA-seq数据。

每一行的数据对应一个不同的可变剪接事件。应该有7列的数据。7的顺序列在输入输出的数据帧PAIRADISE遵循公约的rMATS软件,安排如下:

  1. 第一列包含可变剪接事件的ID。
  2. 第2列包含了第1项同种型对应于第一组。
  3. 第三列包含2项同种型对应于第一组。
  4. 列4包含项同种型1对应于第二组。
  5. 列5项包含同种型2对应于第二组。
  6. 列6包含同种型1的有效长度。
  7. 7包含同种型的有效长度2列。

导入数据PDseDataSet对象。

pdat < - PDseDataSetFromMat (sample_dataset) # >加载数据…pdat # >类:PDseDataSet # >暗:4 8 # >元数据(0):# >化验(1):计数# > rownames(4):外显子1外显子2外显子3外显子4 #构成了rowData名称> (2):iLen sLen # > colnames (8): S1。T S2。T…S3。N S4。N # > colData名称(2):样本组

3.2pairadise方法

pairadise函数实现了PAIRADISE统计模型PDseDataSet对象。多个处理器可以通过使用BiocParallel包中。函数返回一个PDseDataSet与统计估计的对象rowData。这是如何与2线程运行模型。

pairadise_output < - pairadise (pdat numCluster = 2)

3.3输出

一个函数结果可以用来计算p值和过滤的重要结果。例如,结果显著的罗斯福0.01可以获得如下。

res (pairadise_output p < -结果。disorderly =“黑洞”,sig.level = 0.01) res # > DataFrame 3行3列# > testStats p。值p。的# > <数字> <数字> <数字> # >外显子1 9.54941 0.002000136 0.00274910 # # > >外显子2 9.49366 0.002061827 0.00274910 12.29846 0.000453331 0.00181333外显子3

详细信息= TRUE更详细的统计估计,可以返回。

res < -结果(pairadise_output细节= TRUE) colnames (res) # > [1]“testStats”“p。”“μ值。”u“s1。”u“s2。u”。u“# >[7]“δ”“μ。c”“s1。c”“s2。c”“s。c”“totalIter”# >[13]“潜伏”“p。的“res潜[3]# >美元潜伏# >[1][2][3]# >的形式。你0.857840921 0.899015595 0.9405878997 # > psi2。你0.001442136 0.006073380 0.0006441722 # >α。你2.281881387 2.292264054 2.2888561292 # >的形式。c 0.824598001 0.878199864 0.9348674453 # > psi2。c 0.001352191 0.007339606 0.0005979513 # >α。c 1.552849901 1.975950491 2.6566262109

4SessionInfo

sessionInfo () # > R正在开发的(不稳定的)(2022-10-25 r83175) # >平台:x86_64-pc-linux-gnu(64位)# >下运行:Ubuntu 22.04.1 LTS # > # >矩阵产品:默认# >布拉斯特区:/home/biocbuild/bbs - 3.17 - bioc / R / lib / libRblas。所以# > LAPACK: /usr/lib/x86_64-linux-gnu / LAPACK liblapack.so.3.10.0 # > # >语言环境:# > [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC c# = >[3]而= en_GB LC_COLLATE = c# > [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # > [7] LC_PAPER = en_US。utf - 8 LC_NAME c# = > [9] LC_ADDRESS = C LC_TELEPHONE = C # > [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C # > # >附加基本包:# >[1]统计图形grDevices跑龙套数据集方法基础# > # >其他附加包:# > [1]abind_1.4-5 PAIRADISE_1.15.0 nloptr_2.0.3 BiocStyle_2.27.0 # > # >加载通过名称空间(而不是附加):# > [1]Matrix_1.5-1 jsonlite_1.8.3 # > [3] compiler_4.3.0 BiocManager_1.30.19 # > [5] SummarizedExperiment_1.29.0 Biobase_2.59.0 # > [7] stringr_1.4.1 GenomicRanges_1.51.0 # > [9] bitops_1.0-7 parallel_4.3.0 # > [11] jquerylib_0.1.4 IRanges_2.33.0 # > [13] BiocParallel_1.33.0 yaml_2.3.6 # > [15] fastmap_1.1.0 lattice_0.20-45 # > [17] R6_2.5.1 XVector_0.39.0 # > [19] GenomeInfoDb_1.35.0 knitr_1.40 # > [21] BiocGenerics_0.45.0 DelayedArray_0.25.0 # > [23] bookdown_0.29 MatrixGenerics_1.11.0 # > [25] GenomeInfoDbData_1.2.9 bslib_0.4.0 # > [27] rlang_1.0.6 cachem_1.0.6 # > [29] stringi_1.7.8 xfun_0.34 # > [31] sass_0.4.2 cli_3.4.1 # > [33] magrittr_2.0.3 zlibbioc_1.45.0 # > [35] grid_4.3.0 digest_0.6.30 # > [37] S4Vectors_0.37.0 evaluate_0.17 # > [39] codetools_0.2-18 stats4_4.3.0 # > [41] rcurl_1.98 - 1.9 rmarkdown_2.17 # > [43] matrixStats_0.62.0 tools_4.3.0 # > [45] htmltools_0.5.3