EpiTxDb 1.8.0
如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(c (“EpiTxDb”、“EpiTxDb.Hs.hg38”))
epitranscriptome包括所有RNA的转录后修饰和描述和附加层的信息编码的RNA。术语表观基因组不喜欢改变核苷酸序列,但额外的功能元素通过修改。
随着高通量检测策略的发展为特定RNA修改,如miCLIP和Pseudo-Seq之间,大量的修改位置已确定并通过RMBase项目进行了综述(宣et al . 2017;太阳et al . 2015年)项目。
让这些信息中的avaialble Bioconductor宇宙EpiTxDb
开发,促进epitranscriptomic信息的存储。更具体地说,它可以跟踪修改身份,地位,介绍它的酶RNA,说明符决定要修改的RNA上的位置和每个修改与文献引用。
库(EpiTxDb)库(EpiTxDb.Hs.hg38)
类EpiTxDb
是用于存储epitranscriptomic数据的类。它继承的内部运作AnnotationDb
类的AnnotationDbi
包中。
装饰图案snoRNAdb数据作为一个例子(雷斯垂德和韦伯2006)从EpiTxDb.Hs.hg38
包将被使用。数据存储在AnnotationHub
在第一个请求下载和缓存。
etdb < - EpiTxDb.Hs.hg38.snoRNAdb ()
# # snapshotDate (): 2022-04-21
# #从缓存加载
etdb
# # EpiTxDb对象:# # # Db型:EpiTxDb支持包:# # # # # # EpiTxDb数据来源:snoRNAdb # # #生物:智人基因组:# # # # # # hg38坐标:每记录修改的# # # Nb: 235 # # # Db由:EpiTxDb包从Bioconductor # # #创建时间:2020-02-26 10:34:30 + 0100(结婚,2020年2月26日)# # # EpiTxDb版本在创建的时候:0.99.0 # # # RSQLite版本在创建的时候:2.2.0 # # # DBSCHEMAVERSION: 1.0
如预期的AnnotationDb
类的一般访问器是可用的。
keytypes (etdb)
# # [1]“MODID”“MODNAME”“MODSTRAND”“MODTYPE”# # [5]“REF”“REFTYPE”“RXENSEMBL”“RXENSEMBLTRANS”# # [9]“RXENTREZID”“RXGENENAME”“SNID”“SNNAME”# # [13]“SPECENSEMBL”“SPECENSEMBLTRANS”“SPECENTREZID”“SPECGENENAME”# # [17]“SPECTYPE”
列(etdb)
# # [1]“MODEND”“MODID”“MODNAME”“MODSTART”# # [5]“MODSTRAND”“MODTYPE”“REF”“REFID”# # [9]“REFTYPE”“RXENSEMBL”“RXENSEMBLTRANS”“RXENTREZID”# # [13]“RXGENENAME”“RXID”“RXRANK”“SNID”# # [17]“SNNAME”“SPECENSEMBL”“SPECENSEMBLTRANS”“SPECENTREZID”# # [21]“SPECGENENAME”“为了”“SPECTYPE”
(钥匙(etdb MODID))
# # [1]“1”“2”“3”“4”“5”“6”
选择(etdb键=“1”,列= c (“MODNAME”、“MODTYPE”,“MODSTART”,“MODSTRAND”,“SNNAME”,“RXGENENAME”,“SPECTYPE”,“SPECGENENAME”), keytype =“MODID”)
# #的选择()返回1:1键和列之间的映射
列的前缀处方
或规范
参考反应酶和说明符的位置。这可能是相同的信息,但对核糖体的修改snoRNAdb当然fibrillarin snoRNA。
除了以下访问元数据是可用的。
物种(etdb)
# #[1]“智人”
生物(etdb)
# #[1]“智人”
seqlevels (etdb)
# # [1]“NR_003285”“NR_003286”“NR_003287”“NR_004430”“NR_002716”“NR_003925”# # [7]“NR_002756”“NR_004394”“NR_029422”
专业的访问器是修改()
和modificationsBy ()
。修改()
允许过滤结果,而modificationsBy ()
返回所有批次由某些信息的修改。
修改(etdb、列= c (“mod_id”、“mod_type”,“mod_name”、“rx_genename”、“spec_genename”、“ref_type”、“ref”),过滤器=列表(mod_id = 1:3))
与3和7 # #农庄对象元数据列:# # seqnames范围链| mod_id mod_type mod_name # # < Rle > < IRanges > < Rle > | <整数> <人物> <人物> # # [1]NR_003285 14 + | 1嗯Um_14 # # [2] NR_003285 55 + | 2 Y Y_55 # # [3] NR_003285 69 + | 3 Y Y_69 # # rx_genename spec_genename ref_type ref # # < CharacterList > < CharacterList > < CharacterList > < CharacterList > # # [1] fibrillarin SNORD71 PMID 16381836 # # [2] dyskerin pseudouridi . .SNORA72 PMID 16381836 # # [3] dyskerin pseudouridi . .SNORA69 PMID 16381836 # # - - - - - - - # # seqinfo: 9从hg38基因组序列;没有seqlengths
#分割序列名称,通常modificationsBy transcipt标识符(=“seqnames etdb,)
# # GRangesList对象长度9:# # $ NR_003285 4和3 # #农庄组织对象元数据列:# # seqnames范围链| mod_id mod mod_name # # < Rle > < IRanges > < Rle > | <整数> <人物> <人物> # # [1]NR_003285 14 + | 1嗯Um_14 # # [2] NR_003285 55 + | 2 Y Y_55 # # [3] NR_003285 69 + | 3 Y Y_69 # # [4] NR_003285 75 + | 4通用Gm_75 # # - - - - - - - # # seqinfo: 9从hg38基因组序列;没有seqlengths # # # #……# # < 8更多的元素>
#修改类型modificationsBy分裂(etdb =“modtype”)
# # GRangesList对象长度5:39 # # $ # #农庄组织对象和范围和3元数据列:# # seqnames范围链| mod mod_id mod_name # # < Rle > < IRanges > < Rle > | <人物> <整数> <人物> # # [1]NR_003286 27 + |我5 Am_27 # # [2] NR_003286 99 + |我9 Am_99 # # [3] NR_003286 159 + |我15 Am_159 # # [4] NR_003286 166 + |我16 Am_166 # # [5] NR_003286 468 + |我25 Am_468 # #……………………# # [35]NR_002716 30 + |我207 Am_30 # # [36] NR_003925 65 + |我216 Am_65 # # [37] NR_004394 47 + |我226 Am_47 # # [38] NR_004394 53 + |我227 Am_53 # # [39] NR_004394 53 + |我228 Am_53 # # - - - - - - - # # seqinfo: 9从hg38基因组序列;没有seqlengths # # # #……# # < 4更多的元素>
自epitranscriptomic修改从本质上可以有不同的意义对于每个个人的成绩单变体。这对拯救epitranscriptomics坐标还介绍了冲突。在上面的示例中给出了坐标/成绩单,因为源数据。
然而,并不是所有来源的报告记录坐标。可能感兴趣的转变坐标记录坐标,同时照顾与转录变异存在多个选项为每个记录成熟过程:从一个基因组坐标,可以衍生出多个转录组坐标。
是否这是生物相关的生物学证据是否确实存在对每个修改无法保证在每个记录或差异化的技术取决于所使用的方法。这可能改变与新技术的到来让检测修改核苷酸/个人成绩单变体。
库(TxDb.Hsapiens.UCSC.hg38.knownGene)库(BSgenome.Hsapiens.UCSC.hg38)
txdb < - TxDb.Hsapiens.UCSC.hg38。knownGene seqlevels (txdb) < - b < - BSgenome.Hsapiens.UCSC“chr1”。hg38 etdb < - EpiTxDb.Hs.hg38.RMBase ()
# # snapshotDate (): 2022-04-21
# #从缓存加载
tx < - exonsBy (txdb)国防部< -修改(etdb过滤器=列表(sn_name =“chr1”))长度(mod)
# # 47275年[1]
在以下示例中,我们将关注坐标转移到个人成熟的成绩单。然而,请记住,过早成绩单可能会感兴趣的,这可以通过控制tx
参数的shiftGenomicToTranscript ()
tx mod_tx < - shiftGenomicToTranscript (mod)
990年# #警告:坐标范围的“主题”未找到:# #‘chr1:14662:’,‘chr1:14668:’,‘chr1:14766:’,‘chr1:139005:’,‘chr1:139020:’,‘chr1:139040:’,‘chr1:139127:’,‘chr1:629454: +’,‘chr1:629456: +’,‘chr1:629465: + # #和更多…
长度(mod_tx)
# # 182604年[1]
由于多个匹配为每个记录变种修改的数量增加了。
我们可以修改根据类型的相对位置chr1
记录。
mod_tx < -分裂(mod_tx seqnames (mod_tx))名称< -减少(相交,列表(名称(mod_tx)、名称(tx))) #得到相应的5 ' utr和3 ' utr注释fp < - fiveUTRsByTranscript tp (txdb) < - threeUTRsByTranscript (txdb) tx < - tx[名字]mod_tx < - mod_tx[名字]fp_m < -匹配(名称,名称(fp) fp_m < - fp_m [! is.na (fp_m)] tp_m < -匹配(名称,名称(tp)) tp_m < - tp_m [! is.na (tp_m)] fp < - fp [fp_m] tp < - tp (tp_m) #长度的记录,5 ' utr和3 ' utr tx_lengths < - sum(宽度(tx)) fp_lengths < -代表(0 l长度(tx))名称(fp_lengths) < -名称fp_lengths[名称(fp)] < - sum(宽度(fp) tp_lengths < -代表(0 l长度(tx))名称(tp_lengths) < -名称tp_lengths[名称(tp)] < - sum(宽度(tp)) #重新修改# cd开始在位置1 l和cd结束位置从< - 1000 l IRanges (fp_lengths + 1 l, tx_lengths - tp_lengths) <——IRanges (1000 l, l) mod_rescale < -重新调节(mod_tx,,从)#构造结果data.frame rel_pos < - data.frame (mod_type = unlist (mcols (mod_rescale水平=“中”)(“mod_type”]), rel_pos = unlist(启动(mod_rescale))) rel_pos < - rel_pos [rel_pos美元rel_pos < 1500 & rel_pos rel_pos > -500)
库(ggplot2) ggplot (rel_pos [rel_pos mod_type美元% % c (“m6A”、“m1A”,“Y”),), aes (x = rel_pos,颜色= mod_type)) + geom_density ()