内容

1介绍

ChIP-seq被广泛使用作为标准的技术来检测蛋白结合区域,在峰值调用算法开发特别分析。现有峰值呼叫者乏力排名山峰的意义由于测序技术可能接受序列上下文的偏见,如。GC的偏见。gcapc旨在解决这个缺陷建模GC效应到峰值。gcapc还可以帮助完善山峰被其他峰呼叫者的意义,或者正确读计数表的GC-content偏见一组预定义的基因组地区一系列样品。的gcapc包需要输入一个ChIP-seq BAM文件(峰值调用/精炼)或读计数表(除GC效应)以及其他可选参数。

共同分析峰值/精炼包含四个步骤。

  1. 阅读报道。在这一步中,BAM文件记录将被转化为保险完全分辨率分别为正向和反向链。

  2. 绑定宽度估计。这个参数是一个测量交联复合物蛋白结合地区大小的芯片实验。同时,检测峰值一半大小估计基于区域信号从两条线。

  3. GC效应估计。广义线性混合模型之后,EM算法进行评估潜在的GC效应。

  4. 峰打电话/精炼。峰值的召唤,浓缩分数排列分析评估的意义。峰与浓缩分数和假定值报告。精炼峰值,峰值被其他峰调用者应该提供一个农庄组织对象。添加新浓缩意义作为元列输入峰值。

纠正GC影响计数表,分析基于功能一步refineSites就足够了。

2开始

加载包在R

库(gcapc)

3准备输入

准备纠正输入GC影响计数表应该很容易通过引用函数的手册页。在这里,我们专注于为峰值输入调用和精炼。输入可能最低BAM文件的路径,这是一个索引排列顺序读取记录。然而,鼓励附加选项指定加快分析,提高准确性。以下设置可以由用户自定义的选项。

  1. BAM记录过滤选项。在函数read5endCoverage可以为选中的染色体,筛选,读取映射质量,可以高度重复的删除等下游分析加速如果只有一个子集的染色体进行了分析。这实际上提出了一个分而治之的策略如果ChIP-seq实验非常深测序。在这种情况下,分析基于每个染色体水平可以节省大量内存。

  2. 测序片段的选择。如果一个人有先验知识在测序片段的大小。函数的可选参数bindWidth可以指定限制搜索范围窄;或者,这个函数可以省略如果绑定宽度是提前知道。注意,这个绑定宽度可能不是相当于绑定蛋白生物学宽度,因为它可以通过交联影响操作。

  3. 抽样规模GC效应估计。默认值是0.05,这意味着5%的基因组将使用如果分析是基于整个基因组。然而,对于较小的染色体基因组或小的子集,这个尺寸应该调高,以确保准确性。或者,基因组多次取样,使用平均估计避免抽样偏差。注意:更大的样本量或取样时期再计算GC效应的估计结果。

  4. GC GC效应估计的范围。如手册页,GC范围(gcrange参数)应该精心挑选。原因是地区与极低/高GC含量有时作为异常值,并能推动回归线时选择forground地区在混合模型拟合太少。这发生在当研究结合蛋白有太少的全基因组绑定事件。

  5. EM算法先验和收敛。选项可以调整EM算法加速迭代。

  6. 排列。作为功能帮助页面,我们建议一个合适的时间排列可以节省时间以及确保准确性。

在这个描述中,我们将使用enbedded文件chipseq.bam作为一个例子来说明这个包。这个文件包含约80000 ~ CTCF ChIP-seq数据读取从人类21号染色体。

bam < -系统。文件(“extdata”、“chipseq。bam”,包= " gcapc”)

4峰打电话/精炼

对算法的细节,请参阅我们的论文(伊瑞腾和2017)

4.1读取范围

第一步是生成读取正向和反向链覆盖。保险是基于单核苷酸分辨率和只使用BAM的5 '端记录。这意味着,如果不允许重复,每个核苷酸的最大范围是1。

x < - read5endCoverage (bam)浸前轮驱动# # # # $ RleList长度1 # # $ chr21 # # integer-Rle长度与40225 # #运行长度:48129895 9414767 8350 1…1 116 1 41437 # #值:0 1 0 1…1 0 1 0 # # # # # # $ # # RleList牧师长度1 # # $ chr21 # # integer-Rle长度与40427 # #运行长度:48129895 9412972 3087 1…1 367 1 34767 # #值:0 1 0 1…1 0 1 0

Obejct是正向和反向双元素列表代表保险股,分别,而每个元素是一个列表对个体染色体保险。

4.2绑定的宽度

第二步是评估绑定宽度和峰值检测ChIP-seq实验的窗口大小的一半。这一步可以省略绑定宽度是否提前知道。绑定宽度进一步视为有效GC区域单元的大小偏差估计和峰值。峰值检测窗口大小的一半用于定义侧翼区域的宽度。

如果从测序片段附加信息是已知的,这个步骤可能会加快。例如,帮助缩小范围大小。

bdw < - bindWidth (x,范围= c (50 l、300 l),步骤= 10 l) # #开始估计bdwidth。# #……周期1绑定宽度估计# #……周期2绑定宽度估计# #……周期3绑定宽度估计# #……周期决赛绑定宽度估计# #……估计绑定宽度111 # #……估计峰值窗口大小为220 # #炼油峰值窗口一半大小由两股# # ......................地区# #……精制峰值窗口一半大小135 bdw # # 111年[1]135

4.3GC效应

这一步执行GC效应估计使用提出的模型。指出,通过允许显示的阴谋,一个可以把中间结果提供您直接感觉ChIP-seq数据,如GC影响的范围。EM算法迭代也默认启用显示日志可能变化的跟踪,和其他通知消息是礼貌印刷。

布局(矩阵(1:2,1 2)gcb < - gcEffects(浸、bdw抽样= c(0.25, 1),情节= TRUE,模型=“泊松”)# # # #开始估计GC效应……太少/多范围的“监督”。选择随机抽样# # .........抽样地区的25% 1次,总计108395地区# #……数读# #……计算GC满意侧翼79 # #……# # .........估计GC效应迭代1 -35148.61增加109906.9 # # .........迭代2 -34316.64增加831.9672 # # .........迭代3 -34285.41增加31.23412

在这里,25%的windows和1重复取样。左边的图提供了正向和反向链信号之间的相关性,通过估计绑定宽度作为区域单元。正确的预测图显示了原始和GC使用混合模型的影响。

另外两个需要注意的选项监督模型。如果监督选项是指定为一个农庄组织对象,它提供了一组潜在的山峰和允许更有效的抽样程序。在细节,分开两个混合采样forground(信号)和背景区域。模型选项允许切换泊松和负二项分布模型拟合(默认)。现象,负二项假设是更准确的泊松比。然而,泊松是一个很好的近似负二项为GC效应估计,并展示了更快的计算速度比负二项尤其是选择箱子的总数很大。

4.4最大的意义

这是最后一步调用峰值。它使用前面步骤中产生的信息,计算浓缩分数和执行排列分析提出重要的峰值区域。最后的山峰被格式化成农庄对象,和元列是用来记录的意义。额外的通知消息也打印出来。

布局(矩阵(1:2,1 2)峰值< - gcapcPeaks (gcb浸,bdw,情节= TRUE,排列= 100 l)峰值< - gcapcPeaks (gcb浸,bdw,情节= TRUE,排列= 50 l)

峰值与413范围和2 # #农庄组织对象元数据列:# # seqnames范围链| es pv # # < Rle > < IRanges > < Rle > | <数字> <数字> # # [1]chr21 9827175 - 9827175 * 23.063 | 9.17473 e-08 # # [2] chr21 9909602 - 9909602 * 8.042 | 1.65546 e-02 # # [3] chr21 9915442 - 9915442 * 6.937 | 2.80852 e-02 # # [4] chr21 11175039 - 11175039 * 6.978 | 2.75415 e-02 # # [5] chr21 15626034 - 15626034 * 32.631 | 9.17473 e-08 # #…………………# # [409]chr21 47705703 - 47705703 * 6.330 | 3.72794 e-02 # # [410] chr21 47745293 - 47745293 * 12.006 | 1.83045 e 03 # # [411] chr21 48055040 - 48055040 * 13.856 | 5.48833 e-04 # # [412] chr21 48059797 - 48059797 * 11.168 | 3.03785 e 03 # # [413] chr21 48081170 - 48081170 * 33.969 | 9.17473 e-08 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

这里指出,两个测试使用不同次数排列的结果几乎相同的截止浓缩分数,这意味着少量的排列可以节省时间。左边的图中显示截止在浓缩分数基于排列的50倍,图中显示它基于排列的100倍。注意,我们21号染色体只用于说明,从而增加排列从默认的5倍到50。

4.5峰精炼

为了消除GC影响其他峰值呼叫者的输出,这个包提供了给定的山峰函数来提炼浓缩的意义。峰必须提供一个农庄组织对象。一套灵活的山峰宁愿减少潜在的假阴性,意义重大(例如p < = 0.05)和非重要(例如p > 0.05)的峰值是首选。如果峰值的总数不是太大,一套合理的山峰包括所有那些假定值/罗斯福被其他呼叫者峰值小于0.99。

newpeaks < - refinePeaks (gcb浸,bdw,山峰=山峰,排列= 50 l)情节(newpeaks es美元,newpeaks新美元,xlab =“旧得分”,ylab =“新分数”)

newpeaks # #农庄与413范围和4元数据对象列:# # seqnames范围链| es光伏新# # < Rle > < IRanges > < Rle > | <数字> <数字> <数字> # # [1]chr21 9827175 - 9827175 * 23.063 | 23.063 - 9.17473 e-08 # # [2] chr21 9909602 - 9909602 * 8.042 | 8.042 - 1.65546 e-02 # # [3] chr21 9915442 - 9915442 * 6.937 | 6.937 - 2.80852 e-02 # # [4] chr21 11175039 - 11175039 * 6.978 | 6.978 - 2.75415 e-02 # # [5] chr21 15626034 - 15626034 * 32.631 | 32.631 - 9.17473 e-08 # #……………………# # [409]chr21 47705703 - 47705703 * 6.330 | 6.330 - 3.72794 e-02 # # [410] chr21 47745293 - 47745293 * 12.006 | 12.006 - 1.83045 e 03 # # [411] chr21 48055040 - 48055040 * 13.856 | 13.856 - 5.48833 e-04 # # [412] chr21 48059797 - 48059797 * 11.168 | 11.168 - 3.03785 e 03 # # [413] chr21 48081170 - 48081170 * 33.969 | 33.969 - 9.17473 e-08 # # newpv # # <数字> # # 8.54918 [1]e-06 e-02 # # 3.35447 # # [2] [3] 5.19522 e-02 e-02 # # 5.11407 # # [4] [5] 1.23901 e-07 # #……6.53721 e-02 # # # # [409] [410] 5.49960 e 03 2.09207 e 03 # # # # [411] [412] 8.32764 e 03 # # [413] 1.23901 e-07 # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths

在这里,两个新的元列添加到先前的山峰(农庄),包括意义和假定值调整。指出新的浓缩分数实际上是相同的如前所计算(上图),因为以前称为峰值区域gcapc。在实践中,峰值区域和意义被其他峰值调用者大多会不同gcapc如果有强烈的GC的偏见。如果精炼这些意义峰值,改善我们显示我们的论文应该很明显吧。

5纠正GC效应计算表

在这个包中,函数refineSites案例中提供了一些预定义的纠正GC效应更感兴趣区域,而不是调用峰值。我们使用这个函数来调整信号编码报道网站在我们的纸上(伊瑞腾和2017)。这个函数是eay-to-use,计数表和相应的基因组区域所需的两个输入。使用这个函数的细节,请阅读手册页的函数。

6总结

在这个描述中,我们经历了主要功能在这个包,并说明它们如何工作。遵循这些步骤,用户可以删除GC对峰鉴别或潜在影响读计数信号。

引用

腾,Mingxiang和拉斐尔·a·伊》2017。“占Gc-Content偏见减少系统误差和批处理影响Chip-Seq数据。”基因组研究