包:RJMCMCNucleosomes
作者:帕斯卡Belleau (aut) Rawane Samb (aut),阿斯特丽德Deschenes (cre, aut),埃塞俄比亚Khadraoui (aut) Lajmi Lakhal-Chaieb (aut) Arnaud所有权(aut)
版本:1.10.0
编制日期:2019-10-29
许可证:艺术- 2.0
的RJMCMCNucleosomes包和底层RJMCMCNucleosomes2.0代码在艺术许可证下发布的。你可以自由使用和重新分配这个软件。
如果你使用这个包发布,我们会问你引用如下:
Samb R, Khadraoui K, Belleau P, et al。(2015)使用信息Multinomial-Dirichlet之前与可逆跳转t-mixture估计全基因组分析的核小体的位置。统计应用遗传学和分子生物学。问题6卷14日,页517 - 532,ISSN(在线)1544 - 6115年,ISSN(打印)2194 - 6302年,2015年12月,doi: 10.1515 / sagmb - 2014 - 0098
全球基因表达模式是建立和维护由转录因子的共同行动(TFs)和蛋白质构成染色质。核小体是染色质的主要结构部件,它由146个基点octameric组蛋白核心封装的DNA和连接到邻国的大约10 - 80 pbs链接器的DNA(Polishko et al . 2012年)。
核小体定位的文献通常专注于在参数方法(见例如频率论者的推论陈et al。(2010)和ξet al。(2010))。在这些作品中,核小体的位置的检测是通过使用一个隐藏的马尔可夫模型的假定已知的秩序。
的RJMCMCNucleosomes包是一个完全的实现贝叶斯分层模型,分析基于高通量的核小体的位置短内容数据(MNase-Seq数据)。实现基于包含四个方面的策略。首先,它联合模型局部浓度的定向。其次,它使用一个Multinomial-Dirichlet模型建设一个信息先验分布耦合t-mixture模型未知自由度。第三,核小体的数量被认为是一个随机变量,是指一个先验分布。第四,未知参数同时使用可逆跳转马尔可夫链蒙特卡罗模拟技术(见例如(RJMCMC)绿色(1995)和理查森和绿色(1997))。
模型的详细信息可以在这篇文章中提到的引用部分。
与任何R包,RJMCMCNucleosomes包应该首先加载使用下面的命令:
库(RJMCMCNucleosomes)
一个典型的RJMCMCNucleosomes分析包括以下步骤:
合成核小体样本包含100核小体(80的优势+ 20模糊)已经使用Bioconductor创建的包nucleoSim。这将始终使用合成样品的分析。
# #负载nucleoSim包库(nucleoSim) val.num < - 50 # # #的定位准确的核小体数量val.del < - 10 # # #的定位准确的核小体数量删除val.var < - 30 # # #方差相关定位准确的核小体val.fuz < - 10 # # #的模糊核小体数量val.fuz。var < - 50 # # #方差相关模糊核小体val.max。< - 70 # # #最大覆盖一个核小体val.nuc。len < - 147 # # #核小体之间的距离val.len。var < - 10 # # #方差来读取val.lin的长度有关。len < - 20 # # #链接器val.rnd DNA的长度。种子< - 100 # # #设置种子当结果需要重现val.offset < - 10000 # # #基地的数量用于抵消# # #所有核小体和读取# #创建示例使用正态分布示例< - nucleoSim:: syntheticNucReadsFromDist (wp.num =瓦尔。num wp.del = val.del wp.var =瓦尔。var, fuz.num = val.del fuz.var = val.fuz。var, max.cover = val.max。封面,nuc.len = val.nuc。len len.var = val.len。var, lin.len = val.lin。len rnd.seed = val.rnd。种子,分配=“正常”,抵消= val.offset) # #创建合成核小体的可视化表示样图(样本)
建议,为了加快学习过程,分析了区域分割成段加速分析。此外,它是强制以来分别分析每一个染色体rjmcmc
函数只能分析一个染色体。
区域分割可以使用完成分割
函数。注意,大片段的大小(参数最大长度
),需要的迭代次数越高达到收敛在核小体的预测步骤。
# #负载需要包库(GenomicRanges) # #将样本数据集转换成农庄对象sampleGRanges < -农庄(seqnames =样本dataIP空空的美元,范围= IRanges(开始=样本dataIP美元开始,结束=样本dataIP结束美元),链=样本dataIP链美元)# #段样本成候选区域sampleSegmented < -分割(读取= sampleGRangesζ= 147,δ= 40,最大长度= 1000)# #创建的段长度(sampleSegmented) # # 11 [1]
的rjmcmc
函数必须运行在每个候选区域。作为一个例子,第一个候选区域加工使用的迭代次数很低。在真实数据,应该更高的迭代次数(容易1000000次迭代)。
# #提取第一部分segment01 < - sampleSegmented [[1]] # # # # RJMCMC运行分析更多的迭代是真正分析宽频网路resultSegment01 <——RJMCMC(读取= segment01 nbrIterations = 100000,λ= 3,kMax = 30, minInterval = 100, maxInterval = 200, minReads = 5, vse = 1921) # #打印预测核小体第一段resultSegment01 # # RJMCMCNucleosomes -预测核小体# # # #叫:# # RJMCMC(读取= segment01 nbrIterations = 1 e + 05, kMax = 30,λ= 3,# # minInterval = 100, maxInterval = 200, minReads = 5, vse = 1921) # # # #的核小体:# #[1]5 # # # #核小体的位置:# #农庄对象5和0元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr_SYNTHETIC 10078 * # # [2] chr_SYNTHETIC 10260 * # # [3] chr_SYNTHETIC 10322 * # # [4] chr_SYNTHETIC 10406 * # # [5] chr_SYNTHETIC 10796 * # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
一旦所有段进行了分析,预测的核小体可以合并在一起。两个函数可用于促进合并过程:
注意,部分来自不同染色体不应合并在一起。
样本的片段,创建了早,都被处理(使用500000次迭代),并保存在RDS文件。这些将会合并在一起。
# #目录包含所有段# # RDS的结果文件已经为每个部分创建目录< -系统。文件(“extdata”、“demo_vignette”、包=“RJMCMCNucleosomes”) # #合并预测核小体各部分resultsAllMerged <——mergeAllRDSFilesFromDirectory(目录)resultsAllMerged # # # # RJMCMCNucleosomes -预测核小体# # # #的核小体:# # 63 # # # #[1]核小体的位置:与63年# #农庄组织对象范围和0元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr_SYNTHETIC 10075 * # # [2] chr_SYNTHETIC 10245 * # # [3] chr_SYNTHETIC 10407 * # # [4] chr_SYNTHETIC 10571 * # # [5] chr_SYNTHETIC 10742 * # #……* # # # # [59]chr_SYNTHETIC 17421 [60] chr_SYNTHETIC 17589 * # # [61] chr_SYNTHETIC 17756 * # # [62] chr_SYNTHETIC 17771 * # # [63] chr_SYNTHETIC 18257 * # # - - - - - - - # # seqinfo: 1从一个未指明的基因组序列;没有seqlengths
在某些情况下,RJMCMC方法往往在分裂读取一个核小体的分布。虽然这增加假阳性的数量特征,它仍然是有利于该地区丰富的核小体。
核小体定位功能,合并密切,已实施纠正在分裂和提供更为保守的结果。
的治疗后的
函数必须在整个分析地区高效运行。它不应该运行在分割结果。该函数需要的位置读取用于RJMCMC分析。
的价值extendingSize
应该保持低(低于20)。更大的值可能会导致真正的核小体的可能合并。
# #读取从最初的样本数据分割成正向和反向子集读< -农庄(样本dataIP美元)# #的前核小体后处理resultsAllMerged $ k # #[1] 63 # #使用后处理功能resultsPostTreatment < -后处理(读=读,resultRJMCMC = resultsAllMerged extendingSize = 15, chrLength = max(开始(读取),结束(读))+ 1000)# #数字后处理后的核小体长度(resultsPostTreatment) # # 49 [1]
的治疗后的
函数可以显著减少核小体的数量通过合并密切定位核小体。
可视化预测的核小体,及其相关阅读报道,是可用的RJMCMCNucleosomes包中。
的plotNucleosomes
函数需要核小体的位置和读取,在一个农庄
格式,创建一个图。当读取被用来预测超过一组的核小体的位置(为例,治疗前后或结果从不同的软件),可以合并在一个预测列表
同时,这样所有的预测都可以绘制。
# #提取读来创建一个农庄读<农庄(样本dataIP美元)# #合并预测从治疗前和治疗后# #一个列表,这样两个结果将显示在图# resultsBeforeAndAfter < -列表(示例= c(样本wp nucleopos美元,#示例fuz nucleopos美元),# BeforePostTreatment =美元resultsAllMergedμ,# AfterPostTreatment = resultsPostTreatment) resultsBeforeAndAfter <——GRangesList(示例=农庄(代表(“chr_SYNTHETIC”,长度(c (wp nucleopos美元样本,样本fuz nucleopos美元))),范围= IRanges(开始= c (wp nucleopos美元样本,样本fuz nucleopos美元),结束= c (wp nucleopos美元样本,样本fuz nucleopos美元)),链=代表(“*”,长度(c (wp nucleopos美元样本,样本fuz nucleopos美元)))),BeforePostTreatment = resultsAllMerged $μ,AfterPostTreatment = resultsPostTreatment) # #使用核小体的位置和创建图读# #情节将显示:# # 1。核小体从示例# # 2。核小体被rjmcmc()函数# # 3。核小体后获得post-treament plotNucleosomes (nucleosomePositions = resultsBeforeAndAfter、读=读名称= c(“样例”、“RJMCMC”,“经过后处理”))
的rjmcmcCHR
可以分析整个染色体通过自动读取的分割成段,运行rjmcmc
在每一部分,合并和后处理结果。中介目录设定的步骤是守恒的dirOut
参数。
在真正的染色体数据,rjmcmcCHR
可以花些时间来执行。我们强烈建议在多核计算机上运行它,使用最大的核可通过设置nbCores
参数。
# #负荷综合数据集(syntheticNucleosomeReads) # #读取数据的读取数据集nrow (syntheticNucleosomeReads dataIP美元)# #使用数据集来创建一个农庄对象sampleGRanges < -农庄(syntheticNucleosomeReads dataIP美元)# #所有读取一条染色体称为“chr_SYNTHETIC”相关seqnames (sampleGRanges) # # RJMCMC运行在所有读取结果< - rjmcmcCHR(读取= sampleGRanges seqName =“chr_SYNTHETIC dirOut =“testRJMCMCCHRζ= 147,δ= 50,最大长度= 1200,nbrIterations = 500,λ= 3,kMax = 30, minInterval = 146, maxInterval = 292, minReads = 5, vse = 10113, nbCores = 2, saveAsRDS = FALSE, saveSEG = FALSE)的结果
当saveSEG
参数设置为真正的
,在分割步骤中创建的部分保存在RDS文件。保存结果对于每个部分,saveRDS
参数必须设置真正的
。
这里的输出sessionInfo ()
本文档对系统的编译:
# # R版本3.6.1(2019-07-05)# #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 18.04.3 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.10 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.10 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_US。utf - 8 LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # # [1]stats4并行数据图形grDevices跑龙套数据集# #[8]方法基础# # # #其他附加包:# # [1]nucleoSim_1.14.0 RJMCMCNucleosomes_1.10.0 # # [3] GenomicRanges_1.38.0 GenomeInfoDb_1.22.0 # # [5] IRanges_2.20.0 S4Vectors_0.24.0 # # [7] BiocGenerics_0.32.0 BiocStyle_2.14.0 # # # #通过加载一个名称空间(而不是附加):# # [1]Rcpp_1.0.2 compiler_3.6.1 # # [3] BiocManager_1.30.9 XVector_0.26.0 # # [5] consensusSeekeR_1.14.0 bitops_1.0-6 # # [7] tools_3.6.1 zlibbioc_1.32.0 # # [9] digest_0.6.22 lattice_0.20-38 # # [11] evaluate_0.14 rlang_0.4.1 # # [13] Matrix_1.2-17 DelayedArray_0.12.0 # # [15] yaml_2.2.0 xfun_0.10 # # [17] GenomeInfoDbData_1.2.2 rtracklayer_1.46.0 # # [19] stringr_1.4.0 knitr_1.25 # # [21] Biostrings_2.54.0 grid_3.6.1 # # [23] Biobase_2.46.0 xml_3.98 - 1.20 # # [25] BiocParallel_1.20.0 rmarkdown_1.16 # # [27] bookdown_0.14 magrittr_1.5 # # [29] matrixStats_0.55.0 Rsamtools_2.2.0 # # [31] htmltools_0.4.0 GenomicAlignments_1.22.0 # # [33] SummarizedExperiment_1.16.0 stringi_1.4.3 # # [35] rcurl_1.95 - 4.12
陈,K。m, l . Wang, j . Liu c .鑫胡s和j . Yu。2010。核小体定位的“顺序签名线虫。”基因组蛋白质组生物信息学8:92 - 102。https://doi.org/10.1016/s1672 - 0229 (10) 60010 - 1。
绿色,p . 1995。“可逆跳转马尔可夫链蒙特卡罗计算和贝叶斯模型的决心。”生物统计学82:711-32。https://doi.org/10.1093/biomet/82.4.711。
安东,Polishko Nadia桥,Karine g . Le罗氏制药,斯特凡诺Lonardi》2012。“正常:准确的核小体定位使用修改后的高斯混合模型。”生物信息学28日(12):242 - 49。https://doi.org/10.1093/bioinformatics/bts206。
理查森,S。,1997 p .绿色。。“贝叶斯分析的混合物与数目不详的组件。”皇家统计学会杂志》上59:731 - 92。
Xi, L。y Fondufe-Mittendorf l .夏,j . Flatow j . Widom教授和j]。王》2010。“隐马尔可夫模型预测核小体定位使用时间。”BMC生物信息学11:346。https://doi.org/10.1186/1471 - 2105 - 11 - 346。