1传统的概要文件

作为一个例子,我们将情节PRO-seq promoter-proximal地区信号通过计算平均信号强度在每个基地第一个记录的100个碱基。

首先,计算信号在每个基地所有promoter-proximal区域:

库(BRGenomics)数据(“PROseq”) (“txs_dm6_chr4”) txs_pr < -促进剂(txs_dm6_chr4 0 100)
countmatrix_pr < - getCountsByPositions (PROseq、txs_pr ncores = 1)暗(countmatrix_pr) # #[1] 339 100暗(countmatrix_pr) = = c(长度(txs_pr),惟一(宽度(txs_pr))) # #[1]真正的真实

为每一个位置(矩阵的每一列),计算均值,和情节:

情节(x = 1: ncol (countmatrix_pr), y = colMeans (countmatrix_pr)类型=“l”, xlab =“距离TSS (bp)”,ylab = "意味着PRO-seq读”)

1.1缺点

使用算术平均的一个缺点是,这意味着不健壮的离群值。换句话说,是指信号在任何位置很容易由少量的点产生了深远的影响。这是高动态范围的数据如PRO-seq尤其成问题。

常见的看到这个问题通过使用中位数/分位数代替算术的意思。然而,观察会发生什么当我们情节中值信号在我们的基因列表使用几种不同的gene-filtering阈值:

plot_meds < -函数(sig_thresh) {idx <——(rowSums (countmatrix_pr) > sig_thresh)情节(x = 1: ncol (countmatrix_pr), y =应用(countmatrix_pr idx,, 2,中位数),类型=“l”,主要= sprintf (“> % s读取的地区”,sig_thresh), xlab =“距离TSS (bp)”,ylab =“中间PRO-seq读”)}par (mfrow = c(3 2)),(我用c (0, 30 * 2 ^ (0:4))) {plot_meds (i)}

转录的缺乏在果蝇染色体4使这一个有点极端的例子,你也许会发现上述情况为您的数据是一个问题。然而,重要的是要记住未表达的基因如何影响中值。一个共同的经验法则是,给定细胞只倾向于表达约有一半的基因;如果适用,中间的过滤genelist将接近于零,并可能在表达基因发生变化不敏感。

2自举电路的基本原理

一个健壮的选择策划或中等信号配置文件是阴谋引导意味着信号配置文件,称为metaprofile情节或metaplots。

引导意味着信号的位置,少量的基因是随机抽样从genelist和均值信号在每个位置计算组的基因。这个过程随机抽样的基因和计算信号是重复多次迭代,最后引导意味着每个位置的平均采样的意思。

引导的一个特征是,它是健壮的异常值。但更重要的是,一个引导意味着提供一个期望意味着信号的任意一组基因,和相关的期望是一个测量的不确定性。通过分位数的业者的意思除了中位数(期望值),我们可以估计均值的程度在任意组的基因变化。

例如,业者的第75个百分位的意思是很多的,25%的时间,我们计算更高的意思。同样,90%置信区间对引导的意思是包含所有值之间的5和95百分位数的业者的意思。

3生成和绘制Metaprofiles

我们可以使用metaSubsample ()函数来引导genelist平均值的位置。函数接受相同的参数getCountsByPositions ()除了其他参数与引导。

默认情况下,10%的genelist随机抽样1000次,返回和信心乐队第12.5和第87.5百分位数(75%置信区间)。

考虑到体积小数据集,我们将减少30%的置信区间,我们会另外使用5 bp垃圾箱:

bootmeans。df < - metaSubsample (PROseq、txs_pr binsize = 5,降低= 0.35,= 0.65,ncores = 1)头(bootmeans.df)
x平均低上sample.name # # 1 # # 3 0.03529412 0.02941176 0.04705882 PROseq # # 2 8 0.05294118 0.04117647 0.07058824 PROseq # # 3 13 0.07058824 0.05294118 0.09411765 PROseq # # 4 18 0.07058824 0.04705882 0.09411765 PROseq # 23 # 5 0.12352941 0.09411765 0.14705882 PROseq 28 # # 6 0.09411765 0.08235294 0.11176471 PROseq

返回一个dataframe策划,注意x被自动调整箱子的中心。

下面,我们展示了如何使用基地R策划阴谋信心乐队,以及ggplot2

情节(意思是~ x, data = bootmeans。df =“l”型,主要=“PRO-seq信号”,ylim = c (0, 1.4), xlab =“距离TSS ylab =”是指信号+ 30%可信区间”)#画一个多边形添加信心乐队,#和使用adjustcolor()添加多边形(c (bootmeans透明度。df x美元,牧师(bootmeans.df $ x)), c (bootmeans。df美元低,转速(bootmeans.df上美元)),坳= adjustcolor(“黑色”,0.1),边境= FALSE)

需要(ggplot2) ggplot (bootmeans。df, aes (x,意味着))+ geom_line () + geom_ribbon (aes (x, ymin =低,ymax =上),α= 0.1)+实验室(title =“PRO-seq信号”,x =“TSS的距离”,y =”是指信号+ 30%可信区间”)+ theme_bw ()

3.1例子:比较Metaplots

在BRGenomics像其他功能,我们可以通过一个农庄组织列表metaSubsample (),输出是策划方便地组合。

#让ps_list < - 3数据集列表(ps1 = PROseq (seq(1、长度(PROseq), 3)], ps2 = PROseq (seq(2、长度(PROseq), 3)], ps3 = PROseq (seq(3、长度(PROseq), 3)))
bm_list。df < - metaSubsample (ps_list、txs_pr binsize = 5,降低= 0.35,= 0.65,ncores = 1)头(bm_list.df)
x平均低上sample.name # # 1 # # 3 0.01176471 0.005882353 0.01764706 ps1 # # 2 8 0.01764706 0.011764706 0.02352941 ps1 # # 3 13 0.01764706 0.011764706 0.02352941 ps1 # 18 0.03529412 0.023529412 0.04705882 ps1 # 4 # 5 # 23 0.02941176 0.017647059 0.04705882 ps1 # 6 # 28 0.02941176 0.023529412 0.04117647 ps1
需要(ggplot2) ggplot (bm_list。df, aes (x,意思是,颜色= sample.name)) + geom_line () + geom_ribbon (aes (x, ymin =低,ymax =上,颜色= NULL,填补= sample.name),α= 0.2)+实验室(title =“PRO-seq信号”,x =“TSS的距离”,y =”是指信号+ 30%可信区间”)+ theme_bw ()

记住上面的置信区间是忽略业者进行实验的70%,这是过度。更合理的参数将揭示如何缺乏这个数据,即我们是多么un-confident有一个健壮的差异意味着信号在不同的位置。