内容

R包covRNA提供了一个方便和快速的接口进行测试和可视化协变量样本之间的复杂关系和基因介导的基因表达数据。fourthcorner分析测试样本和基因协变量关系的统计学意义排列测试而RLQ可视化在协变量和样本和基因之间的关系。

这个描述是如何covRNA包使用fourthcorner为检测和可视化分析和RLQ协变量样本之间的关系和基因介导的基因表达数据。在这里,我们提供了一个教程RNA-Seq数据集的分析炭疽杆菌包含各种应力条件作为协变量样本和齿轮注释(集群同源组)作为协变量的基因。我们还展示了基因共可以分配给使用其他的数据集R包。

请安装包,如下所示。

如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(“covRNA”)

1概述的分析

基因表达数据通常带有协变量的样本和基因。分析样本和基因之间的关联,反是fourthcorner分析测试协会通过排列的统计显著性测试(勒让德et al。,1997)而RLQ可视化协会内部和之间的协变量(Doledecet al。,1996)。

该方法是基于强大的fourthcornerrlq分析R包中实现ade4包(运货马车et al。、2007和运货马车et al。,2014)和用于分析的生态研究物种丰度数据。我们已经修改了算法的ade4使方法适合RNA-Seq读计数和微阵列强度的分布特征,并提供一个并行高性能实现允许大规模转录组数据分析。我们进一步为用户提供无监督基因筛选方法和绘图功能缓解分析工作流。covRNA可以很容易地应用于微阵列或RNA-Seq数据的任何生物。

有关详细信息,请参阅手册的功能。这个包covRNA实现很容易可以化合的包和其他物品的Bioconductor项目(绅士et al。,2004)。

输入一个ExpressionSet包的对象Biobase可以用作输入assayData包含的基因表达数据,phenoData协变量样本和featureData协变量的基因。另外一个ExpressionSet,这三个数据帧或矩阵R,l可以作为输入。在这里,l包含基因表达数据,协变量样本和R协变量的基因。

统计这个函数统计需要每个结合一个样本协变量和一个基因协变量,计算统计:如果至少有一个不定量,计算相关系数。如果两个则反是直言,卡方检验(费舍尔,1922)相关的统计计算。协会是由置换评估测试的重要性。默认情况下,多个测试修正根据Benjamini和业务应用(1995)。所得的假定值绘制作为协变量的样本和基因的交叉表。默认情况下,红色和蓝色细胞显示正面和负面的重要关联\α(\ \)分别为= 0.05。

奥德这个函数奥德应用奇异矩阵祝圣礼R,l。应用对应分析(CA)l。主成分分析(PCA)或Hillsmith分析(HA)或多个对应分析(MCA)是应用R它们包含,这取决于类型的变量。然后,rlq的函数ade4应用方案和结果可以用不同的方法绘制。

2RNA-Seq数据集的分析

在这里,RNA-Seq数据集的炭疽杆菌(ExpressionSet渐渐协变量)包含不同压力条件下样品和齿轮注释(集群同源组,Tatusovet al。,2000)作为协变量的基因将被分析。

2.1准备的数据集

我们加载covRNA包和集成秋雨数据集,其中包含ExpressionSet秋雨。的assayData包含深度测序RNA-Seq 16个样本的数据炭疽杆菌(四个应力条件和四个复制/应力状态)。原始的序列读取来自Passalacquaet al。(2012)和在基因表达availaible综合(地理,加入GSE36506数量)。我们已经绘制出来,并计算DESeq2(爱et al。这些计数,2014)正常化。的phenoData分配四个应力状态,即ctrl,冷,盐和酒精压力、样品。的featureData分配齿轮注释的基因。
另外,三个矩阵或数据帧对应assayData,phenoDatafeatureData分别可以用作输入以下分析。

图书馆(covRNA)数据(6)

2.2Fourthcorner分析统计

我们使用的函数统计统计分析的基因之间的关联和协变量样本。

statBaca < - stat (ExprSet = 6, npermut = 999, padjust =“黑洞”,nrcor = 2, exprvar = 1) #或statBaca < - stat (L = exprs(巴萨),R = fData(巴萨)、Q = pData(巴萨),npermut = 999, padjust =“黑洞”,nrcor = 2, exprvar = 1)

statBaca是一个类型的对象统计。作为一个列表,它保存所有的结果以及函数的输入。例如,我们可以访问所有协变量组合的调整假定值和统计测试用于他们的计算。

ls (statBaca) adjp < - statBaca adj.pvalue美元;adjp测试< - statBaca美元统计;测试

结果的可视化,统计对象可以绘制(图1)。样品的交叉表和基因功能展现正面和负面的重要关联\α(\ \)= 0.05。如果情节应当显示在高质量,我们建议使用默认设置pdf = TRUE

情节(statBaca xnames = c(“冷”、“热”、“etoh”,“盐”),shiftx = -0.1)

图1:交叉表的调整假定值的协变量样本和基因之间的关联ExpressionSet渐渐。红色和蓝色细胞显示正面和负面的重要关联\α(\ \)分别为= 0.05。

2.3RLQ奥德

我们使用的函数奥德想象样本和基因共在一个任命阴谋。

ordBaca < -奥德(巴萨)

ordBaca然后是一个类型的对象吗奥德。这个对象的不同特性可以被使用绘制功能论点的情节函数(有关更多信息,请参见手册)。例如,我们可以画出的方差解释为每个轴(图2)。

情节(ordBaca特性=“方差”)

图2:Barplot量的方差解释为每个轴的配合秋雨。轴是考虑任命黑人默认(2)所示。

的第一个两个轴RLQ解释大量数据的方差(93.81\ \ % \ ()和4.09\ \ % \ ()分别)。

2.4组合的结果

函数的结果统计奥德可以同时呈现在一个分类图的函数(图3)。

vis(统计= statBaca奥德= ordBaca rangex = 1.5, rangey = 1.5)

图3:同时可视化的统计分析和分类秋雨。协变量之间的蓝色和红色线代表积极和消极意义关联,分别。

在此任命情节,反是至少参与一个重要协会所示黑色,其他人以灰色显示。由线连接所有重要则反是哪种颜色代表积极的和消极的协会,分别。正如预期的那样,积极协变量相关的集群在任命情节,而消极的协变量相关位于不同的角度从原点紧密联系在一起。

我们观察到第一轴似乎是由齿轮类之间的差异张成J和o .第二轴似乎跨越了ctrl和压力条件的区别。冷的空间距离和盐治疗在第二象限表明他们有类似的功能对基因表达的影响。

2.5与其他方法相比

来验证我们的结果的分析秋雨,我们比较传统方法如超几何测试(HG) Mann-Whitney等级测试(排名)和基因集富集分析(GSEA,萨勃拉曼尼亚et al。用的,2005)R沼泽(见公园et al。2015年,为进一步的细节)。

等级和GSEA发现类J显著相关(p = 6.40 e-11年和p = 0.02)。HG不检测任何重要基因功能。

3基因注释

如果一个数据集不包含基因,反是;Bioconductor协变量提供了各种工具分配基因的基因。我们建议使用BioconductorbiomaRt(Durincket al。,2009)。

>如果!requireNamespace (“BiocManager”,悄悄地= TRUE)) + install.packages (BiocManager) > BiocManager::安装(“biomaRt”) >图书馆(biomaRt)

通过biomaRt包,可以访问不同的数据库。通过使用listEnsembl ()例如,可以列出所有可用的运用数据库(哈伯德et al。,2002)。选择一个数据库后,可以选择一个数据集。这个数据集将包含不同的基因功能和其他基因可以访问的信息listAttributes ()

>运用< - useEnsembl (biomart =“运用”)> listDatasets(运用)> ensemblhuman < - useEnsembl (biomart =“运用”,数据集=“hsapiens_gene_ensembl”) > listAttributes (ensemblhuman)

如果基因标识符可用的数据集和所选的数据库不互相对应,Bioconductor注释可用于分配合适的标识符。

像这样,我们得到一个充分注释的数据集,可以分析的功能covRNA包中。

4安装

covRNA包是免费的Bioconductor//www.andersvercelli.com/packages/devel/bioc/html/covRNA.html

5引用

业务Benjamini, y, y (1995)。英国皇家统计学会杂志》上。系列B(方法论)。289:300。

Chihara, l . m . Hesterberg, t . c (2011)。约翰威利& Sons, 35:75。

Doledec, S。,Chessel, D., Ter Braak, C., and Champely, S. (1996) . Environmental and Ecological Statistics, 3(2), 143:166.

运货马车,S。,Choler, P., Doledec, S., Peres-Neto, P. R., Thuiller, W., Pavoine, S., and ter Braak, C. J. (2014) . Ecology, 95(1), 14:21.

运货马车,S。,Dufour, A.-B., et al. (2007) . Journal of statistical software, 22(4), 1:20.

Durinck, S。,Spellman, P., Birney, E., Huber, W. (2009) Nature Protocols, 4, 1184:1191.

费舍尔,r . a (1922)。英国皇家统计学会学报,85 (1),87:94。

绅士,r . C。凯里,诉J。贝茨,d . M。,Bolstad B。,Dettling, M., Dudoit, S., Ellis, B., Gautier, L., Ge, Y., Gentry, J., et al. (2004) . Genome Biology, 5(10), R80.

哈伯德,T。,Barker, D., Birney, E., Cameron, G., Chen, Y. et al. (2002) Nucleic Acids Research 2002 30(1), 38:41.

勒让德,P。Galzin, R。,和Harmelin-Vivien, M. L. (1997) . Ecology, 78(2), 547:562.

爱,我。胡贝尔,W。,一个ders, S. (2014) . Genome Biology, 15(12), 550.

公园,J。,Taslim, C., Lin, S. (2015) . Elsevier Computational and Structural Biotechnology Journal, 13, 366:369.

Passalacqua, k·D。同,。怀斯特,C。,Ondov, B. D., Byrd, B. et al. (2012) . PLoS ONE, 7(8), e43350.

萨勃拉曼尼亚,一个。Tamayo, P。,Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., Paulovich, A., Pomeroy, S. L., Golub, T. R., Lander, E. S., et al. (2005) . Proceedings of the National Academy of Sciences of the United States of America, 102(43), 15545:15550.

Tatusov, r . L。,Galperin, M. Y., Natale, D. A., Koonin, E. V. (2000) . Nucleic Acids Research, 28(1), 33:36.