1安装

3.11的Bioconductor(发布日期2020年4月28日),直接从Bioconductor BRGenomics可以安装:

# install.packages (BiocManager) BiocManager:安装(“BRGenomics”)

另外,最新的开发版本可以安装
GitHub:

# install.packages(“遥控器”)遥控器:install_github (“mdeber / BRGenomics@R3”)

BRGenomics(和Bioconductor 3.11)需要R版本4.0(4月24日发布,2020年)。安装R3分支,如上所示,需要安装在R 3. x。

如果你从Github安装开发版本,您使用的是Windows,Rtools Windows是必需的。

2并行处理

默认情况下,许多BRGenomics函数使用多核处理的实现平行包中。BRGenomics函数可以并行总是包含论点ncores。如果没有指定,默认是使用全球选项”mc。核”(使用的相同的选项平行包),或2如果不设置这个选项。

如果你想改变全局缺省4核,例如,您将运行选项(mc。核= 4)在R会话的开始。如果你不确定有多少核心处理器,运行并行:detectCores ()。

虽然性能可以内存限制在某些情况下(因此实际上受到过度的并行化),巨大的性能优势可以通过最大化并行化。

然而,在Windows上并行处理是不可用的。保持兼容性,所有的代码在这个描述文档中的示例代码是使用一个单一的核心,即。ncores = 1。

3包括数据集

BRGenomics附带的示例数据集从黑腹果蝇PRO-seq数据111Hojoong夸克,Nicholas j . Fuda雷顿j .核心,约翰·t·Lis (2013)。精确的地图RNA聚合酶揭示推动者如何直接启动和暂停。科学339年(6122):950 - 953。https://doi.org/10.1126/science.1229386。PRO-seq basepair-resolution方法使用3 '端测序的RNA映射的位置积极RNA聚合酶。

保持数据集小,我们只包括读取映射到第四个染色体222在果蝇染色体4,通常被称为“点”的染色体,非常小,只包含很少的基因。

包括数据集可以使用访问数据()功能:

库(BRGenomics)

PROseq数据(“PROseq”)

与47380年# #农庄对象范围和1元数据列:# # seqnames范围链|得分# # < Rle > < IRanges > < Rle > | <整数> # # [1]chr4 1295 + | 1 # # [2] chr4 41428 + | 1 # # [3] chr4 42588 + | 1 # # [4] chr4 42590 + | 2 # # [5] chr4 42593 + | 5 # #………………# # [47376]chr4 1307742 - | 1 # # [47377] chr4 1316537 - | 1 # # [47378] chr4 1318960 - | 1 # # [47379] chr4 1319004 - | 1 # # [47380] chr4 1319369 - | 1 # # - - - - - - - # # seqinfo: 7从一个未指明的基因组序列

注意,数据中包含一个农庄对象。农庄组织对象,从GenomicRanges包,非常容易处理,支持大量的有用的功能和包。

数据将在稍后描述的结构(在部分“Basepair-Resolution农庄组织对象”)。现在,我们只要注意注释(如genelists)和数据包含使用相同的农庄组织类。

我们已经包括了一个示例genelist陪PRO-seq数据:

txs_dm6_chr4数据(“txs_dm6_chr4”)

与339范围和2 # #农庄对象元数据列:# # seqnames范围链| tx_name gene_id # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 879 - 5039 + | FBtr0346692 FBgn0267363 # # [2] chr4 42774 - 43374 + | FBtr0344900 FBgn0266617 # # [3] chr4 44774 - 46074 + | FBtr0340499 FBgn0265633 # # [4] chr4 56497 - 60974 + | FBtr0333704 FBgn0264617 # # [5] chr4 56497 - 63124 + | FBtr0333705 FBgn0264617 # #…………………# # [335]chr4 1192419 - 1196848 | FBtr0100543 FBgn0039924 # # [336] chr4 1192419 - 1196848 | FBtr0100544 FBgn0039924 # # [337] chr4 1225089 - 1230713 | FBtr0100406 FBgn0027101 # # [338] chr4 1225737 - 1230713 | FBtr0100402 FBgn0027101 # # [339] chr4 1225737 - 1230713 | FBtr0100404 FBgn0027101 # # - - - - - - - # # seqinfo: 7从德国基因组序列

上面的农庄中包含所有果蝇注释记录从染色体4,没有任何形式的过滤。

4基本操作在农庄

的用户不熟悉农庄组织对象,这一节演示了一些基本操作。

总体结构的快速摘要:农庄的每个元素对象被称为“范围”。正如上面你可以看到的,每一个范围包含几个组件:seqnames,范围,链。这些基本属性都发现左边的上面的垂直分频器;一切的权利,分频器是一个可选的,元数据属性。

核心属性可以使用的函数访问seqnames (),范围(),链()。所有元数据可以使用访问mcols (),单个列的访问美元操作符。列是唯一保留的元数据分数列,就像任何其他元数据列,除了用户可以使用分数()函数来评估它。

上述所有功能都是“getter”和“setter”,如。链(x)返回链信息,链(x) < -“+”分配它。

下面演示了这些和其他操作。

了解更多关于农庄组织对象,包括组件的总体概述,看到有用的小插图介绍GenomicRanges包。另外,从2018年Bioconductor车间看到存档材料使用GenomicRanges解决常见的生物信息学挑战。注意,这个计划将实现和简化一些常见操作,但用户仍应与农庄对象有一个基本的了解。

得到genelist的长度:

长度(txs_dm6_chr4)

# # 339年[1]

选择第二个记录:

txs_dm6_chr4 [2]

与1和2 # #农庄对象元数据列:# # seqnames范围链| tx_name gene_id # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 42774 - 43374 + | FBtr0344900 FBgn0266617 # # - - - - - - - # # seqinfo: 7从德国基因组序列

选择4记录:

tx4 < - txs_dm6_chr4 [c (1、10、200、300)] tx4

与4和2 # #农庄对象元数据列:# # seqnames范围链| tx_name gene_id # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 879 - 5039 + | FBtr0346692 FBgn0267363 # # [2] chr4 69326 - 110059 + | FBtr0308615 FBgn0085432 # # [3] chr4 184225 - 193489 | FBtr0089150 FBgn0039890 # # [4] chr4 1009895 - 1027101 | FBtr0309865 FBgn0025741 # # - - - - - - - # # seqinfo: 7从德国基因组序列

先的长度4记录:

宽度(tx4)

# # 4161 40734 9265 17207 [1]

得到一个dataframe第一4元数据记录:

mcols (tx4)

# # DataFrame 4行2列# # tx_name gene_id # # <人物> <人物> # # 1 FBtr0346692 FBgn0267363 # # 2 FBtr0308615 FBgn0085432 # # 3 FBtr0089150 FBgn0039890 # # 4 FBtr0309865 FBgn0025741

访问一个元数据列第一4记录:

mcols (tx4) [2]

# # [1]“FBgn0267363”“FBgn0085432”“FBgn0039890”“FBgn0025741”

gene_id“mcols (tx4) []

# # [1]“FBgn0267363”“FBgn0085432”“FBgn0039890”“FBgn0025741”

tx4 gene_id美元

# # [1]“FBgn0267363”“FBgn0085432”“FBgn0039890”“FBgn0025741”

美元tx4_names < - tx4 tx_name tx4_names

# # [1]“FBtr0346692”“FBtr0308615”“FBtr0089150”“FBtr0309865”

获得第一个gene_id(元数据元素):

tx4 gene_id美元[1]

# # [1]“FBgn0267363”

删除一个元数据列:

mcols (tx4) < - mcols (tx4) [1] tx4

与4 # #农庄对象范围和1元数据列:# # seqnames范围链| X # # < Rle > < IRanges > < Rle > | <人物> # # [1]chr4 879 - 5039 + | FBgn0267363 # # [2] chr4 69326 - 110059 + | FBgn0085432 # # [3] chr4 184225 - 193489 | FBgn0039890 # # [4] chr4 1009895 - 1027101 | FBgn0025741 # # - - - - - - - # # seqinfo: 7从德国基因组序列

重命名的元数据:

名称(mcols (tx4)) < - tx4“gene_id”

与4 # #农庄对象范围和1元数据列:# # seqnames范围链| gene_id # # < Rle > < IRanges > < Rle > | <人物> # # [1]chr4 879 - 5039 + | FBgn0267363 # # [2] chr4 69326 - 110059 + | FBgn0085432 # # [3] chr4 184225 - 193489 | FBgn0039890 # # [4] chr4 1009895 - 1027101 | FBgn0025741 # # - - - - - - - # # seqinfo: 7从德国基因组序列

添加元数据;一样访问方法(mcols () [],mcols()美元,或者只是美元):

tx4 tx_name < - tx4_names tx4

与4和2 # #农庄对象元数据列:# # seqnames范围链| gene_id tx_name # # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr4 879 - 5039 + | FBgn0267363 FBtr0346692 # # [2] chr4 69326 - 110059 + | FBgn0085432 FBtr0308615 # # [3] chr4 184225 - 193489 | FBgn0039890 FBtr0089150 # # [4] chr4 1009895 - 1027101 | FBgn0025741 FBtr0309865 # # - - - - - - - # # seqinfo: 7从德国基因组序列

修改元数据:

tx4 gene_id美元[1]< -“gene1 tx4 tx_name < - 1:4 tx4美元

与4和2 # #农庄对象元数据列:# # seqnames范围链| gene_id tx_name # # < Rle > < IRanges > < Rle > | <人物> <整数> # # [1]chr4 879 - 5039 + | gene1 1 # # [2] chr4 69326 - 110059 + | FBgn0085432 2 # # [3] chr4 184225 - 193489 | FBgn0039890 3 # # [4] chr4 1009895 - 1027101 | FBgn0025741 4 # # - - - - - - - # # seqinfo: 7从德国基因组序列

得到的范围(不是特定链):

开始(tx4)

# # [1]879 69326 184225 1009895

得到的范围(链具体):

tx4_tss < -调整(tx4宽度= 1,修复= "开始")tx4_tss

与4和2 # #农庄对象元数据列:# # seqnames范围链| gene_id tx_name # # < Rle > < IRanges > < Rle > | <人物> <整数> # # [1]chr4 879 + | gene1 1 # # [2] chr4 69326 + | FBgn0085432 2 # # [3] chr4 193489 - | FBgn0039890 3 # # [4] chr4 1027101——| FBgn0025741 4 # # - - - - - - - # # seqinfo: 7从德国基因组序列

开始(tx4_tss)

# # [1]879 69326 193489 1027101

删除所有元数据:

零tx4 mcols (tx4) < -

# #农庄对象列:4和0元数据链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] chr4 879 - 5039 + # # [2] chr4 69326 - 110059 + # # [3] chr4 184225 - 193489 # # [4] chr4 1009895 - 1027101 # # - - - - - - - # # seqinfo: 7从德国基因组序列

开始

2022年4月26日

包

1安装

2并行处理

3包括数据集

4基本操作在农庄