BRGenomics 1.9.0
3.11的Bioconductor(发布日期2020年4月28日),直接从Bioconductor BRGenomics可以安装:
# install.packages (BiocManager) BiocManager:安装(“BRGenomics”)
另外,最新的开发版本可以安装
GitHub:
# install.packages(“遥控器”)遥控器:install_github (“mdeber / BRGenomics@R3”)
BRGenomics(和Bioconductor 3.11)需要R版本4.0(4月24日发布,2020年)。安装R3
分支,如上所示,需要安装在R 3. x。
如果你从Github安装开发版本,您使用的是Windows,Rtools Windows是必需的。
默认情况下,许多BRGenomics函数使用多核处理的实现平行
包中。BRGenomics函数可以并行总是包含论点ncores
。如果没有指定,默认是使用全球选项”mc。核”(使用的相同的选项平行
包),或2如果不设置这个选项。
如果你想改变全局缺省4核,例如,您将运行选项(mc。核= 4)
在R会话的开始。如果你不确定有多少核心处理器,运行并行:detectCores ()
。
虽然性能可以内存限制在某些情况下(因此实际上受到过度的并行化),巨大的性能优势可以通过最大化并行化。
然而,在Windows上并行处理是不可用的。保持兼容性,所有的代码在这个描述文档中的示例代码是使用一个单一的核心,即。ncores = 1
。
BRGenomics附带的示例数据集从黑腹果蝇PRO-seq数据1Hojoong夸克,Nicholas j . Fuda雷顿j .核心,约翰·t·Lis (2013)。精确的地图RNA聚合酶揭示推动者如何直接启动和暂停。科学339年(6122):950 - 953。https://doi.org/10.1126/science.1229386。PRO-seq basepair-resolution方法使用3 '端测序的RNA映射的位置积极RNA聚合酶。
保持数据集小,我们只包括读取映射到第四个染色体2在果蝇染色体4,通常被称为“点”的染色体,非常小,只包含很少的基因。
包括数据集可以使用访问数据()
功能:
库(BRGenomics)
PROseq数据(“PROseq”)
与47380年# #农庄对象范围和1元数据列:# # seqnames范围链|得分# # < Rle > < IRanges > < Rle > | <整数> # # [1]chr4 1295 + | 1 # # [2] chr4 41428 + | 1 # # [3] chr4 42588 + | 1 # # [4] chr4 42590 + | 2 # # [5] chr4 42593 + | 5 # #………………# # [47376]chr4 1307742 - | 1 # # [47377] chr4 1316537 - | 1 # # [47378] chr4 1318960 - | 1 # # [47379] chr4 1319004 - | 1 # # [47380] chr4 1319369 - | 1 # # - - - - - - - # # seqinfo: 7从一个未指明的基因组序列
注意,数据中包含一个农庄
对象。农庄组织对象,从GenomicRanges包,非常容易处理,支持大量的有用的功能和包。
数据将在稍后描述的结构(在部分“Basepair-Resolution农庄组织对象”)。现在,我们只要注意注释(如genelists)和数据包含使用相同的农庄组织类。
我们已经包括了一个示例genelist陪PRO-seq数据:
txs_dm6_chr4数据(“txs_dm6_chr4”)
与339范围和2 # #农庄对象元数据列:# # seqnames范围链| tx_name gene_id # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 879 - 5039 + | FBtr0346692 FBgn0267363 # # [2] chr4 42774 - 43374 + | FBtr0344900 FBgn0266617 # # [3] chr4 44774 - 46074 + | FBtr0340499 FBgn0265633 # # [4] chr4 56497 - 60974 + | FBtr0333704 FBgn0264617 # # [5] chr4 56497 - 63124 + | FBtr0333705 FBgn0264617 # #…………………# # [335]chr4 1192419 - 1196848 | FBtr0100543 FBgn0039924 # # [336] chr4 1192419 - 1196848 | FBtr0100544 FBgn0039924 # # [337] chr4 1225089 - 1230713 | FBtr0100406 FBgn0027101 # # [338] chr4 1225737 - 1230713 | FBtr0100402 FBgn0027101 # # [339] chr4 1225737 - 1230713 | FBtr0100404 FBgn0027101 # # - - - - - - - # # seqinfo: 7从德国基因组序列
上面的农庄中包含所有果蝇注释记录从染色体4,没有任何形式的过滤。
的用户不熟悉农庄组织对象,这一节演示了一些基本操作。
总体结构的快速摘要:农庄的每个元素对象被称为“范围”。正如上面你可以看到的,每一个范围包含几个组件:seqnames
,范围
,链
。这些基本属性都发现左边的上面的垂直分频器;一切的权利,分频器是一个可选的,元数据属性。
核心属性可以使用的函数访问seqnames ()
,范围()
,链()
。所有元数据可以使用访问mcols ()
,单个列的访问美元
操作符。列是唯一保留的元数据分数
列,就像任何其他元数据列,除了用户可以使用分数()
函数来评估它。
上述所有功能都是“getter”和“setter”,如。链(x)
返回链信息,链(x) < -“+”
分配它。
下面演示了这些和其他操作。
了解更多关于农庄组织对象,包括组件的总体概述,看到有用的小插图介绍GenomicRanges包。另外,从2018年Bioconductor车间看到存档材料使用GenomicRanges解决常见的生物信息学挑战。注意,这个计划将实现和简化一些常见操作,但用户仍应与农庄对象有一个基本的了解。
得到genelist的长度:
长度(txs_dm6_chr4)
# # 339年[1]
选择第二个记录:
txs_dm6_chr4 [2]
与1和2 # #农庄对象元数据列:# # seqnames范围链| tx_name gene_id # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 42774 - 43374 + | FBtr0344900 FBgn0266617 # # - - - - - - - # # seqinfo: 7从德国基因组序列
选择4记录:
tx4 < - txs_dm6_chr4 [c (1、10、200、300)] tx4
与4和2 # #农庄对象元数据列:# # seqnames范围链| tx_name gene_id # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 879 - 5039 + | FBtr0346692 FBgn0267363 # # [2] chr4 69326 - 110059 + | FBtr0308615 FBgn0085432 # # [3] chr4 184225 - 193489 | FBtr0089150 FBgn0039890 # # [4] chr4 1009895 - 1027101 | FBtr0309865 FBgn0025741 # # - - - - - - - # # seqinfo: 7从德国基因组序列
先的长度4记录:
宽度(tx4)
# # 4161 40734 9265 17207 [1]
得到一个dataframe第一4元数据记录:
mcols (tx4)
# # DataFrame 4行2列# # tx_name gene_id # # <人物> <人物> # # 1 FBtr0346692 FBgn0267363 # # 2 FBtr0308615 FBgn0085432 # # 3 FBtr0089150 FBgn0039890 # # 4 FBtr0309865 FBgn0025741
访问一个元数据列第一4记录:
mcols (tx4) [2]
# # [1]“FBgn0267363”“FBgn0085432”“FBgn0039890”“FBgn0025741”
gene_id“mcols (tx4) []
# # [1]“FBgn0267363”“FBgn0085432”“FBgn0039890”“FBgn0025741”
tx4 gene_id美元
# # [1]“FBgn0267363”“FBgn0085432”“FBgn0039890”“FBgn0025741”
美元tx4_names < - tx4 tx_name tx4_names
# # [1]“FBtr0346692”“FBtr0308615”“FBtr0089150”“FBtr0309865”
获得第一个gene_id(元数据元素):
tx4 gene_id美元[1]
# # [1]“FBgn0267363”
删除一个元数据列:
mcols (tx4) < - mcols (tx4) [1] tx4
与4 # #农庄对象范围和1元数据列:# # seqnames范围链| X # # < Rle > < IRanges > < Rle > | <人物> # # [1]chr4 879 - 5039 + | FBgn0267363 # # [2] chr4 69326 - 110059 + | FBgn0085432 # # [3] chr4 184225 - 193489 | FBgn0039890 # # [4] chr4 1009895 - 1027101 | FBgn0025741 # # - - - - - - - # # seqinfo: 7从德国基因组序列
重命名的元数据:
名称(mcols (tx4)) < - tx4“gene_id”
与4 # #农庄对象范围和1元数据列:# # seqnames范围链| gene_id # # < Rle > < IRanges > < Rle > | <人物> # # [1]chr4 879 - 5039 + | FBgn0267363 # # [2] chr4 69326 - 110059 + | FBgn0085432 # # [3] chr4 184225 - 193489 | FBgn0039890 # # [4] chr4 1009895 - 1027101 | FBgn0025741 # # - - - - - - - # # seqinfo: 7从德国基因组序列
添加元数据;一样访问方法(mcols () []
,mcols()美元
,或者只是美元
):
tx4 tx_name < - tx4_names tx4
与4和2 # #农庄对象元数据列:# # seqnames范围链| gene_id tx_name # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 879 - 5039 + | FBgn0267363 FBtr0346692 # # [2] chr4 69326 - 110059 + | FBgn0085432 FBtr0308615 # # [3] chr4 184225 - 193489 | FBgn0039890 FBtr0089150 # # [4] chr4 1009895 - 1027101 | FBgn0025741 FBtr0309865 # # - - - - - - - # # seqinfo: 7从德国基因组序列
修改元数据:
tx4 gene_id美元[1]< -“gene1 tx4 tx_name < - 1:4 tx4美元
与4和2 # #农庄对象元数据列:# # seqnames范围链| gene_id tx_name # # < Rle > < IRanges > < Rle > | <人物> <整数> # # [1]chr4 879 - 5039 + | gene1 1 # # [2] chr4 69326 - 110059 + | FBgn0085432 2 # # [3] chr4 184225 - 193489 | FBgn0039890 3 # # [4] chr4 1009895 - 1027101 | FBgn0025741 4 # # - - - - - - - # # seqinfo: 7从德国基因组序列
得到的范围(不是特定链):
开始(tx4)
# # [1]879 69326 184225 1009895
得到的范围(链具体):
tx4_tss < -调整(tx4宽度= 1,修复= "开始")tx4_tss
与4和2 # #农庄对象元数据列:# # seqnames范围链| gene_id tx_name # # < Rle > < IRanges > < Rle > | <人物> <整数> # # [1]chr4 879 + | gene1 1 # # [2] chr4 69326 + | FBgn0085432 2 # # [3] chr4 193489 - | FBgn0039890 3 # # [4] chr4 1027101——| FBgn0025741 4 # # - - - - - - - # # seqinfo: 7从德国基因组序列
开始(tx4_tss)
# # [1]879 69326 193489 1027101
删除所有元数据:
零tx4 mcols (tx4) < -
# #农庄对象列:4和0元数据链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr4 879 - 5039 + # # [2] chr4 69326 - 110059 + # # [3] chr4 184225 - 193489 # # [4] chr4 1009895 - 1027101 # # - - - - - - - # # seqinfo: 7从德国基因组序列