内容

1简介

RNA测序(RNA-seq)已被用作测量基因、转录本、外显子或剪接连接表达丰度的标准技术。许多定量方法被提出来定量这种丰度与RNA-seq读取比对器的组合。目前很难评估最佳方法的性能,部分原因是运行评估实验的高成本以及运行这些算法的计算要求。我们开发了一系列统计摘要和数据可视化技术来评估转录本量化的性能。

rnaseqcompR-package执行比较,并在这些统计摘要上提供直接图。它要求输入作为量化表列表,表示来自两个条件数据集上比较管道的量化。使用这些管道上的必要元信息(如。名称)和量化特征的注释信息(如。成绩单信息),两步分析将生成所需的评估。

  1. 数据过滤和数据校准。在这一步中,提供了对原始数据进行任何过滤和校准操作的选项。一个S4班rnaseqcomp对象将为下一步生成。

  2. 统计总结评估和可视化。提供了特异性和敏感性评估函数。

2开始

在R中加载包

库(rnaseqcomp)

3.准备数据

对于每个比较的管道,一个量化表应该是\ (m * n \)矩阵,\ \(米)对应于量化特征的数量(如。成绩单)和\ (n \)对应于样本数量。这个函数signalCalibrate将这些矩阵的列表作为输入之一,并提供额外的选项,如管道的元信息、用于评估的特征和用于校准的特征,并返回一个S4rnaseqcomp对象,该对象包含用于下游求值的所有内容。

在这一步中我们需要额外的选项有以下几个原因:

  1. 管道的元信息基本上是检查表列完整性的因素,并为下游分析提供管道的唯一名称。

  2. 由于不同特征之间可能存在巨大的量化差异,如。在蛋白质编码基因和lincRNA基因之间,基于特征子集的评估比使用所有相关特征的评估具有更强的鲁棒性。因此,提供了选择特征子集的选项。

  3. 由于不同的管道可能报告不同的量化单位,例如FPKM(每百万千碱基的片段数),RPKM(每百万千碱基的读取数),TPM(每百万转录数)等。跨不同管道的校准是必要的。选项提供了校准基于哪些特性,以及信号映射到哪些管道。

  4. 特征标注主要提供不同类型特征之间的差异表达状态和元关系,例如哪些转录本属于哪些基因。

我们在这里展示了一个选择管家基因的例子(Eisenberg and Levanon 2013)在1号染色体上进行校准,并使用所有转录本进行评估。在这个小插图中,我们将使用嵌入式数据集simdata作为一个例子来说明这个包。

该数据集包括对两个模拟细胞系的15776个转录本进行量化,每个细胞系有8个重复。模拟了真差异表达转录本。从两个管道(RSEM(Li and Dewey 2011)和FluxCapacitor(Montgomery et al. 2010))均包含在此数据集内。

#加载数据集在这个包中的数据(simdata)类(simdata) ##[1]“列表”名称(simdata) ##[1]“quant”“meta”“samp”

在这里,包括量化simdata美元量化.包含转录本的Meta信息simdata元美元,包括它们是否属于家养基因以及它们模拟的真实折叠变化状态。示例信息包括在simdata桑普美元

为了适应函数signalCalibrate,对于额外的选项,需要对因子或逻辑向量进行必要的转换,如下图所示。

condInfo <- factor(simdata$samp$condition) repInfo <- factor(simdata$samp$ replication) evaluationFeature <- rep(TRUE, nrow(simdata$meta)) calibrationFeature <- simdata$meta$house & simdata$meta$chr == 'chr1' unitReference <- 1

的返回值。signalCalibrate是S4rnaseqcomp对象,其中的一般信息可以通过泛型函数查看显示

dat <- signalCalibrate(simdata$quant, condInfo, repInfo, evaluationFeature, calibrationFeature, unitReference, calibrationFeature2 = calibrationFeature) class(dat) ## [1] "rnaseqcomp" ## attr(,"package") ## [1] "rnaseqcomp" show(dat) ## rnaseqcomp: RNA-seq量化管道的基准测试## ##量化管道:2 ##总转录本:15776 ## 2个条件的总样本:16个

4可视化的基准

目前,这个包可以评估五种类型的QC指标。详情请参阅我们的论文(Teng et al. 2016)

4.1表达特征的专一性。

该指标通过RNA-seq技术重复之间的量化偏差进行评估。基本上,越低的偏差表明越高的特异性。提供了一个数统计量和由表达信号分层的标准差图。具体来说,一个数字的统计数据是根据三种不同水平的表达信号分别总结的,因为标准偏差随着不同水平的表达而发生巨大变化。

plotSD(dat,ylim=c(0,1.4)) ## $med ## rsem fluxcapacitor ## A<=1 0.65 0.99 ## 1=6 0.21 0.32 ## ## $se ## rsem fluxcapacitor ## A<=1 0.003 0.005 ## 1=6 0.001 0.002

图中显示的去趋势信号实际上是与RSEM管道具有相同尺度的信号,因为我们选择了该管道为unitReference.在这种情况下,TPM由RSEM。在返回的矩阵中,值基于两个单元格的平均值;行名中的“A”表示去趋势日志信号。基本上,该图显示RSEM定量的标准差比FluxCapacitor低。

4.2非表达特征的特异性

未表达特征的比例是另一个重要的统计数据。同时分析了两类非表达特征:

4.2.1在一个技术复制中表达的特性,而不是在另一个技术复制中。

给定一个界限来定义一个信号是否表示表达或非表达,在任何比较的两个重复中,转录本的一定比例可能在一个重复中表达,而在另一个重复中则不表达。因此,这种转录本的比例越低,特异性越好。我们从每个两个重复的比较中计算比例的平均值,因为每个细胞系中有两个以上的重复。

4.2.2两个重复均未表达的特征。

使用上述相同的截断值,一定比例的转录本可能在两个比较的重复中都不表达。这个指标应该与上面的指标一起分析。详情请参阅我们的论文(Teng et al. 2016)

plotNE(dat,xlim=c(0.5,1)) ## $ n# # rsem flux电容## 0 0.097 0.163 ## 1 0.073 0.145 ## 2 0.049 0.120 ## 3 0.034 0.095 ## ## $ n# ## rsem flux电容## 0 0.615 0.559 ## 1 0.692 0.629 ## 2 0.768 0.704 ## 3 0.832 0.775

其中,y轴表示表达比例和非表达比例,x轴表示非表达比例。同样,返回值基于两个细胞系的平均值,而“NE”矩阵表示表达和非表达比例,“NN”矩阵表示非表达比例。对于上述返回矩阵的行名,0、1、2、3表示对应的截断值。

4.3特异性基因只有两个注释转录本

对于每个细胞系中的任意两个副本进行比较,只包含两个注释转录本的基因的一个转录本的比例可能不同,甚至可以翻转。本节估计并绘制由去趋势对数信号策略的比例差异。绝对差值的平均值将被报告为三级去抑制对数信号。

plot2TX(dat,genes=simdata$meta$gene,ylim=c(0,0.6)) ## $mean ## rsem fluxcapacitor ## A<=1 0.41 0.44 ## 1=6 0.04 0.07 ## ## $se ## rsem fluxcapacitor ## A<=1 0.014 0.016 ## 1=6 0.003 0.004

基本上曲线越高,表示只有两个转录本的基因表达的特异性越差。返回的矩阵基于三个不同级别的去趋势对数信号。类似的解释如下plotSD

4.4微分分析的灵敏度

4.1.1ROC曲线

对于每个管道,差异表达首先通过细胞系之间1比1比较的折叠变化来估计。然后通过将折叠变化与预定义的真微分进行比较来制作ROC曲线。使用阈值平均策略对多个1对1比较的ROC曲线进行平均。每条管线均报告标准化曲线下面积(pAUC)。

plotROC(dat,simdata$meta$positive,simdata$meta$fcsign,ylim=c(0,0.8)) ## rsem fluxcapacitor ## 0.630 0.512

10/24/11估计的褶皱变化分布

对于每个管道,差异表达估计的平均信号在复制细胞系的倍数变化。对于真正差分表达的特征,根据去趋势对数信号的不同级别总结其折叠变化级别。

Simdata $meta$fcsign[Simdata $meta$fcstatus == "off.]on"] <- NA plotFC(dat,simdata$meta$positive,simdata$meta$fcsign,ylim=c(0,1.2)) ## $med ## rsem fluxcapacitor ## A<=1 0.53 0.39 ## 1=6 0.93 0.85 ## ## $se ## rsem fluxcapacitor ## A<=1 0.012 0.016 ## 1=6 0.007 0.013

这里,在嵌入的模拟数据中。几个转录本被模拟为开和关模式,这意味着在一个细胞系中表达,而在另一个细胞系中完全没有信号。这些转录本可能会偏向我们想要的真实分布,因为它们的折叠变化可能是无穷大的。因此,在运行函数“plotFC”之前,我们通过将这些转录本的折叠变化的真实标志设置为NA来忽略这些转录本。

5总结

在这篇短文中,我们主要介绍这个包中包含的主要功能,并尝试说明它们是如何工作的。所使用的数据实际上是我们在论文中展示的数据的一部分。我们证明,通过将这些指标组合在一起,人们可以很容易地得到他们的运行管道性能如何,并在此基础上做出进一步的决定。

参考文献

伊莱·艾森伯格,埃雷兹·Y·莱瓦农,2013。“人类管家基因,重新审视。”遗传学趋势29(10): 569-74。

李,波,科林·N·杜威,2011。“RSEM:从Rna-Seq数据中精确的转录物定量,有或没有参考基因组。”BMC生物信息学12(1): 323。

蒙哥马利,斯蒂芬·B,米夏·萨姆梅特,玛丽亚·古铁雷斯-阿塞勒斯,拉多斯瓦夫·P·拉赫,凯瑟琳·英格尔,詹姆斯·尼斯贝特,罗德里克·吉戈和伊马努伊尔·T·德米扎基斯。2010。“在高加索人群中使用第二代测序的转录组遗传学。”自然464(7289): 773-77。

滕明祥,Michael I. Love, Carrie A. Davis, Sarah Djebali, Alexander Dobin, Brenton R. Graveley,李胜等。2016。" Rna-Seq定量管道的基准"基因组生物学17(1): 74。https://doi.org/10.1186/s13059-016-0940-1