嗝GenomicInteractions包的装饰图案

介绍

这个描述向您展示如何使用GenomicInteractions调查嗝显著交互作用进行了分析使用的数据荷马软件[1]。GenomicInteractions可以荷马交互文件作为输入。

嗝数据来自染色体构象捕获其次是高通量测序。不同于3 c, 4或5 c,特定区域的目标,它可以提供全基因组信息的空间邻近区域的基因组。原始数据的paired-end读取片段连接限制。解决一个嗝实验paired-end测序读取次数是有限的生产和碎片的大小限制。增加区分真正的交互和随机噪声的能力,嗝一般数据分析箱从20 kb - 1 mb。有各种各样的工具装箱数据,控制噪声(如self-ligations限制片段),并找到显著的交互作用。

我们正在使用的数据的来源这篇论文[2],可以下载地理。从野生型老鼠嗝数据双阳性胸腺细胞。实验进行了使用HindIII限制性内切酶。paired-end读取对齐到mm9老鼠基因组组装和荷马软件被用来过滤读取和检测重要的交互在分辨率为100 kb。对于这个描述的目的,我们将从染色体14和15只考虑数据。

做一个GenomicInteractions对象

加载指定的数据文件位置和实验类型。您还可以包括一个实验名称和描述。

图书馆(Gviz)图书馆(GenomicInteractions)图书馆(GenomicRanges)图书馆(InteractionSet)

执行(“extdata”,“Seitan2013_WT_100kb_interactions.txt”,包=“GenomicInteractions”)makeGenomicInteractionsFromFile(hic_file类型=“荷马史诗”,experiment_name =“嗝100 kb”,描述=“嗝100 kb的决议”)seqlengths(hic_data) < -c(chr15 =103494974,chr14 =125194864)

的GenomicInteractions类的扩展GInteractions类的InteractionSet包中。地区参与交互的对象包含一组,存储为一个农庄对象,两组指标给每个交互所涉及的地区(锚)。每个交互的元数据(例如,假定值,富兰克林·德兰诺·罗斯福)存储为一个DataFrame访问mcols ()或elementMetadata (),类似于一个简单的元数据农庄。您还可以访问使用单一元数据列美元。


    mcols(hic_data)


   # # # 14 # DataFrame 23276行和列数InteractionID PeakID.1。strand.1。Total.Reads.1。# # <整数> <人物> <人物> <人物> <整数> # # 344 interaction66 chr15 - 97600000 + 7144 # # 2 373 interaction94 chr15 - 74800000 + 8002 # # 3 258 interaction103 chr14 - 55000000 + 7617 # # 4 397 interaction118 chr15 - 80400000 + 9403 # # 5 213 interaction122 chr14 - 55100000 + 6775 # #………………# # 23272 7 interaction279065 chr15 - 82900000 + 9936 # # 23273 9 interaction279070 chr15 - 100500000 + 8840 # # 23274 9 interaction279096 chr15 - 46500000 + 13170 # # 23275 8 interaction279101 chr14 - 58500000 + 14212 # # 23276 10 interaction279102 chr14 - 72100000 + 11299 # # PeakID.2。strand.2。Total.Reads.2。距离预期。读# # <人物> <人物> <整数> <人物> <数字> # # 1 chr15 - 80527 + 8598 97500000 59.6631 # # 2 chr15 - 74700000 + 11112 93528 79.8436 # # 3 chr14 - 198082 + 11577 54800000 37.4725 # # 4 chr15 - 80980 + 11387 80300000 94.9088 # # 5 chr14 - 298783 + 11577 54800000 25.4555 # #………………# # 23272 chr15 - 6500000 + 12876 6500000 1.52056 # # 23273 chr15 - 89000000 + 11127 89000000 2.45306 2.45312 # # 23274 chr15 - 19200000 + 9540 19200000 # # 23275 chr14 - 15100000 + 8057 15100000 1.97143 # # 23276 chr14 Z - 47000000 + 13665 47000000 2.96131 # #。分数LogP FDR.Benjamini…based.on.3.68e.08.total.tests。 ##    ## 1 4.88746 -327.744 0 ## 2 4.30370 -290.945 0 ## 3 3.64848 -284.012 0 ## 4 3.99679 -274.607 0 ## 5 3.55835 -271.035 0 ## ... ... ... ... ## 23272 1.53689 -6.90821 1 ## 23273 1.30185 -6.90814 1 ## 23274 1.31508 -6.90780 1 ## 23275 1.40053 -6.90776 1 ## 23276 1.24805 -6.90776 1 ## Circos.Thickness ##  ## 1 30 ## 2 26 ## 3 26 ## 4 24 ## 5 24 ## ... ... ## 23272 2 ## 23273 2 ## 23274 2 ## 23275 2 ## 23276 2
   
    头(hic_data美元LogP)
   
   # # [1]-327.74 -290.94 -284.01 -274.61 -271.04 -234.65
   
    美元p。值< -经验值(hic_data美元LogP)
   
   所有区域的集合包含在对象可以访问使用区域()或交互的第一和第二主持人可以访问使用主持人()。你也可以选择返回的指数范围区域()对应于锚。
   我们还提供便利功能anchorOne和anchorTwo返回第一个/第二个锚农庄。
   
    地区(hic_data)
   
   与2154和0 # #农庄对象元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr15 3000000 - 3000000 * # # [2] chr15 3100000 - 3100000 * # # [3] chr15 3200000 - 3200000 * # # [4] chr15 3300000 - 3300000 * # # [5] chr15 3400000 - 3400000 * # #……# # [2150]chr14 124700000 - 124700000 * # # [2151] chr14 124800000 - 124800000 * # # [2152] chr14 124900000 - 124900000 * # # [2153] chr14 125000000 - 125000000 * # # [2154] chr14 125100000 - 125100000 * # # - - - - - - - # # seqinfo: 2从一个未指明的基因组序列
   
    锚(hic_data类型=“第一”)
   
   与23276和0 # #农庄对象元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr15 97600000 - 97600000 * # # [2] chr15 74800000 - 74800000 * # # [3] chr14 55000000 - 55000000 * # # [4] chr15 80400000 - 80400000 * # # [5] chr14 55100000 - 55100000 * # #……# # [23272]chr15 82900000 - 82900000 * # # [23273] chr15 100500000 - 100500000 * # # [23274] chr15 46500000 - 46500000 * # # [23275] chr14 58500000 - 58500000 * # # [23276] chr14 72100000 - 72100000 * # # - - - - - - - # # seqinfo: 2从一个未指明的基因组序列
   
    头(锚(hic_data类型=“第一”,id =真正的))
   
   # # 939 711 1458 767 1459 629 [1]
   
    anchorOne(hic_data)
   
   与23276和0 # #农庄对象元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr15 97600000 - 97600000 * # # [2] chr15 74800000 - 74800000 * # # [3] chr14 55000000 - 55000000 * # # [4] chr15 80400000 - 80400000 * # # [5] chr14 55100000 - 55100000 * # #……# # [23272]chr15 82900000 - 82900000 * # # [23273] chr15 100500000 - 100500000 * # # [23274] chr15 46500000 - 46500000 * # # [23275] chr14 58500000 - 58500000 * # # [23276] chr14 72100000 - 72100000 * # # - - - - - - - # # seqinfo: 2从一个未指明的基因组序列
   我们可以检查锚是预期的大小(100 kb)。
   
    总结(宽度(地区(hic_data)))
   
   # #分钟。1日瞿瞿。中值的意思是3日,马克斯。# # 89536 100000 100000 99991 100000 100000
   一些锚小于100 kb由于本年底的染色体。总共有23276个交互,共有447000读起来支持他们。计算的平均数量读取/互动,首先使用interactionCounts ()要读取的数量支持每个交互。
   
    头(interactionCounts(hic_data))
   
   # # 344 373 258 397 213 441 [1]
   
    的意思是(interactionCounts(hic_data))
   
   # # 19.204 [1]
   然而,由于我们有罗斯福和假定值,它可能是更多的信息来使用这些找到感兴趣的互动。注意,罗斯福列在不同的数据集将被命名为根据的交互数据。本文档中为简单起见我们将重命名它!
   
    情节(密度(hic_data美元p.value))
   
   
    
   
    美元罗斯福< -hic_data美元FDR.Benjamini…based.on。3.68e。08年。total.tests。情节(密度(hic_data美元罗斯福)

摘要统计信息

包提供了一些功能概要统计数据可能感兴趣的事,如地区之间的相互作用的比例相同的染色体(独联体交互)或在不同的染色体(反式交互),或者读取相互支持相互作用的数量。这些情节可以用来评估的噪音水平你的数据集——许多交互罗斯福高或低的存在读计数表明,数据可能会吵,含有大量的假阳性的交互。可以通过罗斯福子集GenomicInteractions对象或读取的数量。

总和(hic_data美元罗斯福<0.1)

# # 8171年[1]

hic_data [hic_data美元罗斯福<0.1]

plotCisTrans(hic_data)

plotCisTrans(hic_data_subset)

plotCounts(hic_data减少=30.)

plotCounts(hic_data_subset减少=30.)

构造子集由罗斯福会删除交互支持更少的读取。反式交互阅读支持往往低于独联体交互,所以的百分比反式交互作用降低。

注释

GenomicInteractions最强大的特性之一是,它允许您通过锚是否重叠基因功能注释交互,如启动子或增强子。

基因组注释数据可以获得,例如,UCSC的数据库使用GenomicFeatures包。我们将使用Refseq基因的启动子扩展到5 kb的宽度。下载所有数据可能是一个缓慢的过程,所以这些数据提供了启动子染色体14和15这个包。

我们还将使用定义的一组假定的增强剂使用鼠标编码数据2012年沈et al。

# #没有运行图书馆(GenomicFeatures)makeTxDbFromUCSC(基因组=“mm9”,表=“refGene”)基因(mm9.refseq.db)transcriptsBy(mm9.refseq.db通过=“基因”)refseq.transcripts [的名字(refseq.transcripts)%,%unlist(refseq.genes美元gene_id)]启动子(refseq.transcripts2500年,2500年)unlist(mm9_refseq_promoters [seqnames(mm9_refseq_promoters)%,%c(“chr14”,“chr15”)))独特的(mm9_refseq_promoters)#从不同的亚型记录一些重复的推动者#获取基因符号useMart(“运用”,数据集=“mmusculus_gene_ensembl”)getBM(属性=c(“mgi_symbol”,“refseq_mrna”),过滤器=“refseq_mrna”,值=mm9_refseq_promoters美元tx_name,集市=集市)美元geneSymbol < -基因美元mgi_symbol [匹配(mm9_refseq_promoters美元tx_name,基因美元refseq_mrna)]的名字(mm9_refseq_promoters) < -mm9_refseq_promoters美元geneSymbolis.na(的名字(mm9_refseq_promoters))的名字(mm9_refseq_promoters) [na。象征)< -mm9_refseq_promoters美元tx_name [na.symbol]

#没有运行# #从http://chromosome.sdsc.edu/mouse/download.html得到增强download.file(“http://chromosome.sdsc.edu/mouse/download/thymus.zip”,“thymus.zip”)解压缩(“thymus.zip”)read.table(“胸腺/ thymus.enhancer.txt”,9月=”\ t”,stringsAsFactors =假)农庄(seqnames =thymus_enh美元V1,范围=IRanges(thymus_enh美元V2,宽度=1))调整(thymus_enh修复=“中心”,宽度=500年)thymus_enh [seqnames(thymus_enh)%,%c(“chr14”,“chr15”)]的名字(thymus_enh) < -粘贴(“掺”,as.character(thymus_enh),9月=“_”)

annotateInteractions需要一个列表的功能在农庄或GRangesList格式和注释的交互锚与这些特性基于重叠。注释列表功能应该有描述性的名字,这些名字都存储在注释GenomicInteractions对象,用于分配锚(节点)类。

数据(“mm9_refseq_promoters”)数据(“thymus_enhancers”)列表(启动子=mm9_refseq_promoters,增强剂=thymus_enh)annotateInteractions(hic_data_subset annotation.features)

# #警告annotateInteractions (hic_data_subset annotation.features): # #一些特性包含重复的id将导致重复的注释

# #注释与启动子…

# #注释与增强剂…

此外,自己应该有名称或id的特性。这些可以名称()对象的特性,或一个“id”元数据列(注意大小写)。这些名称或id为每个特性存储在元数据列的地区GenomicInteractions对象。每个锚可能重叠的每种类型的多个特性,因此列包含功能名称或id存储为列表。

头(地区(hic_data_subset))

与6和3 # #农庄对象元数据列:# # seqnames范围链|节点。类促进剂。id # # < Rle > < IRanges > < Rle > | <人物> <列表> # # [1]chr15 3000000 - 3000000 * |远< NA > # # [2] chr15 3100000 - 3100000 * |增强剂< NA > # # [3] chr15 3200000 - 3200000 * |子Ccdc152 Sepp1, Sepp1,……# # [4]chr15 3300000 - 3300000 * |远< NA > # # [5] chr15 3400000 - 3400000 * |远< NA > # # [6] chr15 3500000 - 3500000 * |子Ghr, Ghr # #增强剂。<列表> id # # # # [1] < NA > # # [2] ENH_chr15:3122350-31 . ., ENH_chr15:3180350-31 . ., ENH_chr15:3183250-31 . .# # [3]ENH_chr15:3214450-32 . ., ENH_chr15:3259750-32 . .# # # # [4]< NA > [5] < NA > # # [6] < NA > # # - - - - - - - # # seqinfo: 2从一个未指明的基因组序列

头(地区(hic_data_subset)美元promoter.id)

# # # # ([1])[1]NA # # # # # # [1] [[2]] NA # # # # # # [1] [[3]]“Ccdc152”“Sepp1”“Sepp1”“Sepp1”# # # # # # [1] [[4]] NA # # # # # # [1] [[5]] NA # # # # # # [1] ([6])“Ghr”“Ghr”

节点类

节点类(或锚类)被分配到每个锚基于重叠与注释特性和这些特性的顺序在列表传递给注释功能。如果列表为列表(启动子=…成绩单=…)然后锚重叠子和成绩单将节点类“促进者”。早些时候的特性列表优先。任何锚不与任何给定特征的注释将会分配类“远”。在这种情况下锚可以“子”,“增强”,或“远”。

锚是巨大的,其中大部分是重叠的至少一个启动子或增强子。

表(地区(hic_data_subset)美元node.class)

# # # #远端增强启动子# # 989 275 890

交互类型

交互的类类型是由节点进行交互。我们只有两个节点类,我们有三种可能的交互类,总结在下面的情节。大部分的启动子之间的相互作用。我们可以子集数据交互类型是特别感兴趣的。

plotInteractionAnnotations(hic_data_subset传说=真正的)

远端地区与启动子可能包含监管互动元素,如增强剂或绝缘体。获得所有promoter-distal交互:

长度(hic_data_subset [isInteractionType(hic_data_subset“子”,“远”)))

# # 492年[1]

由于这是一个常见的互动感兴趣的,有一个专门为识别这些交互功能(见参考手册或帮助(isInteractionType)额外的建在交互类型)。isInteractionType可以用于任何一对节点类。也有识别功能独联体或反式交互。

长度(hic_data_subset [is.pd(hic_data_subset)))

# # 492年[1]

总和(is.trans(hic_data_subset))

6 # # [1]

然而在这种情况下我们有注释锚与已知的增强器位置,所以我们可以只是enhancer-promoter交互的数据子集。

找到最强promoter-enhancer交互:

hic_data_subset [isInteractionType(hic_data_subset“子”,“增强”)]马克斯(interactionCounts(hic_data_ep))

# # 385年[1]

hic_data_ep [which.max(interactionCounts(hic_data_ep)))
    最小值(hic_data_ep美元p.value)


   # # 9.9935 e - 102 [1]
   
    hic_data_ep [which.min(hic_data_ep美元p.value)]
    calculateDistances(most_counts方法=“中点”)
   

   # # 100000年[1]
   
    calculateDistances(min_pval方法=“中点”)
   
   # # 300000年[1]
   
    总结(calculateDistances(hic_data_subset方法=“中点”))
   
   # #分钟。1日瞿瞿。中值的意思是3日,马克斯。NA的# # 100000 1100000 6200000 15298995 6200000 1100000 6

想象的互动感兴趣的

最高的互动之间的数据集的计数锚包含启动子的基因称为Trib1,和相邻地区包含十多个假定的增强剂。

anchorOne(most_counts)美元promoter.id

# # # # ([1])[1]“Trib1”

anchorTwo(most_counts)美元enhancer.id

([1])# # # # [1]“enh_chr15:59317450 - 59317949”“enh_chr15:59321250 - 59321749 # #”[3]“enh_chr15:59339600 - 59340099”“enh_chr15:59348250 - 59348749”# # [5]“enh_chr15:59352650 - 59353149”“enh_chr15:59357650 - 59358149”# # [7]“enh_chr15:59362650 - 59363149”“enh_chr15:59369750 - 59370249”# # [9]“enh_chr15:59380150 - 59380649”“enh_chr15:59385400 - 59385899”# # [11]“enh_chr15:59398650 - 59399149”

GenomicInteractions提供方法来可视化交互使用Gviz包为了进一步调查感兴趣的区域。例如,我们可以查看交互周围地区Trib1通过创建一个启动子InteractionTrack。

调整(mm9_refseq_promoters [“Trib1”),修复=“中心”,宽度=1000000)InteractionTrack(hic_data_subsetname =“嗝”,染色体=“chr15”)plotTracks(interaction_track染色体=“chr15”,从=开始(Trib1_region),=结束(Trib1_region))

使用的功能Gviz包我们可以将更多的数据添加到情节想象特征在这个区域和定制如何显示这些数据。这里感兴趣的区域内相互作用的是红色,和交互与其他地区chr15蓝色所示。弧代表的高度交互的数量是按比例缩小的重要支持他们。

AnnotationTrack(mm9_refseq_promoters基因组=“mm9”,name =“家族”,id =的名字(mm9_refseq_promoters),featureAnnotation =“id”)AnnotationTrack(thymus_enh基因组=“mm9”,name =“增强”,叠加=“密集”)displayPars(promoterTrack) < -列表(填补=“deepskyblue”,坳=NA,fontcolor。特点=“黑色”,字形大小=8,just.group =“下面”)displayPars(enhTrack) < -列表(填补=“黑色”,坳=NA)displayPars(interaction_track) =列表(col.interactions =“红色”,col.anchors。填补=“蓝色”,col.anchors。行=“黑色”,interaction.dimension =“高度”,交互。测量=“计数”,plot.trans =假,情节。外=真正的,col.outside =“lightblue”,锚。身高=0.1)plotTracks(列表(promoterTrack interaction_track enhTrack),染色体=“chr15”,从=开始(Trib1_region),=结束(Trib1_region),大小=c(0.6,0.2,0.2))

你可以看到定制选项可用于Gviz跟踪使用availableDisplayPars ()和找到更多的信息关于这个和其他跟踪类型Gviz装饰图案。

出口到BED12格式

交互存储在一个GenomicInteractions对象可以被导出BED12格式在基因组浏览器中查看。主持人是连接薄交互形象地表现为厚块。

# #没有运行export.bed12(hic_data_subsetfn =“hic_data_FDR0.1.bed”,下降。反式=真正的)

引用

亨氏年代,Benner C, Spann N, Bertolino E等。简单的组合Lineage-Determining转录因子主要基因元素巨噬细胞和B细胞所需的身份。摩尔细胞(2010)。
,面筋VC et al。Cohesin-based染色质交互使既存建筑隔间内调控基因表达。基因组研究(2013)。
沈,Y et al。在小鼠基因组中基因序列的地图。自然(2012)。