1简介

tRNAscan-SE(Lowe和Eddy 1997)可用于基于序列上下文和计算结构特征的全基因组tRNA基因预测。基因组中的许多tRNA注释包含或基于tRNAscan-SE生成的信息,例如目前SGD的酿酒酵母(Saccharomyces cerevisiae)参考基因组sacer3。然而,并非tRNAscan-SE的所有可用信息最终都在基因组注释中结束。其中包括例如结构信息,附加分数和信息,保守的cca端是否编码在基因组DNA中。为了使用这个完整的信息集,tRNAscan-SE输出可以被解析成一个更容易访问的GRanges对象tRNAscanImport

2开始

默认的tRNAscan-SE输出,运行tRNAscan-SE即可(Lowe和Eddy 1997)本地或从gtRNADb检索输出(Chan and Lowe 2016),由一个格式化的文本文档组成,每个由空行分隔的tRNA包含单独的文本块。

- system. library(tRNAscanImport)File ("extdata", File = "酵母。"tRNAscan", package = "tRNAscanImport") # output for sacCer3 # Before readLines(con = yeast_file, n = 7L)
# # chrI[1]”。trna1 (139152-139254)\tLength: 103bp " ## [2] "Type: Pro\tAnticodon: TGG at 33-35 (139184-139186)\tScore: 62.1" ##[3] "可能的内含子:37-67 (139188-139218)"# #[4]“嗯Sc = 37.90 \拟订struct Sc = 24.20 " # # (5 ] " * | * | * | * | * | * | * | * | * | * | " ## [ 6]“Seq: GGGCGTGTGGTCTAGTGGTATGATTCTCGCTTTGGGcgacttcctgattaaacaggaagacaaagcaTGCGAGAGGcCCTGGGTTCAATTCCCAGCTCGCCCC“# #”[7]Str : >>>>>.>..>>>.........<<<.>>>>>......................................<<<<<.....>>>>>.......<<<<<<.<<<<<."

3.进口的农庄

要在bio上下文中访问信息,首先想到的是作为grange对象的导入。import.tRNAscanAsGRanges ()通过使用正则表达式计算每个文本块来执行此任务。

gr <- import.tRNAscanAsGRanges(yeast_file) head(gr, 2)
## seqnames ranges strand | no tRNA_length tRNA_type ##    |    ## [1] chrI 139152-139254 + | 1 72 Pro ## [2] chrI 166267-166339 + | 2 73 Ala ## tRNA_anticodon tRNA_anticodon。tRNA_anticodon开始。end tRNAscan_score ##     ## [1] TGG 33 35 62.1 ## [2] TGC 34 36 76.0 ## tRNA_seq tRNA_str tRNA_CCA。end ##    ## [1] GGGCGTGTGG…AGCTCGCCCC  <<<<<.<..<...>>>.>>>>>.错误## [2]gggcacatgg…GTTGCGTCCA  <<<<.<<..<...>>>>.>>>>.错误# # tRNAscan_potential。假基因tRNAscan_intron。tRNAscan_intron开始。end ##    ## [1] FALSE 139188 139218 ## [2] FALSE   ## tRNAscan_intron。locstart tRNAscan_intron。locend tRNAscan_hmm。score ##    ## [1] 37 67 37.9 ## [2]   53.4 ## tRNAscan_sec.str。score tRNAscan_infernal ## <数字> <数字> ## [1]24.2 NA ## [2] 22.6 NA ## ------- ## seqinfo: 17个序列从一个未指定的基因组;没有seqlengths
#任何GRanges传递此参数,可用于后续函数istRNAscanGRanges(gr)
# # [1]

结果可以直接在R中使用,也可以保存为gff3/fasta文件供进一步使用,包括对序列进行HTS读图处理或对分析基因组的tRNA含量进行统计分析。

library(Biostrings) library(rtracklayer) # suppressMessages(library(rtracklayer, quiet = TRUE)) #保存tRNA序列writeXStringSet(gr$tRNA_seq, filepath = tempfile()) #为GFF3兼容使用tRNAscan2GFF gff <- tRNAscan2GFF(gr) export。Gff3 (gff, con = tempfile())

4可视化

可以将tRNAscan-SE信息可视化gettRNAFeaturePlots ()的函数tRNA包,返回一个已命名的ggplot2情节列表,这些情节可以被绘制或进一步修改。另外,gettRNASummary ()返回聚合的信息以供进一步使用。

# tRNAscan-SE输出hg38 human_file <- system。File ("extdata", File = "human. txt ")tRNAscan", package = "tRNAscanImport") # tRNAscan-SE output for E. coli MG1655 eco_file <- system.file("extdata", file = "ecoli.tRNAscan", package = "tRNAscanImport") # import tRNAscan-SE files gr_human <- import.tRNAscanAsGRanges(human_file) gr_eco <- import.tRNAscanAsGRanges(eco_file) # get summary plots grl <- GRangesList(Sce = gr, Hsa = gr_human, Eco = gr_eco) plots <- gettRNAFeaturePlots(grl)
块美元的长度
tRNA长度。

图1:tRNA长度

情节tRNAscan_score美元
tRNAscan-SE分数。

图2:tRNAscan-SE分数

情节gc美元
tRNA GC含量。

图3:tRNA GC含量

情节tRNAscan_intron美元
图示与内含子。

图4:图示与内含子

情节variableLoop_length美元
变量循环的长度。

图5:变量循环的长度

5获取tRNA前体序列

由于tRNAscan报告所找到的tRNA的基因组位置,通过将tRNAscan输入对象与功能的匹配基因组序列相结合,可以检索近似的tRNA前体序列get.tRNAprecursor

library(bsgenome . scerevisiae . ucsc . sacer3) genome <- getSeq(bsgenome . scerevisiae . ucsc . sacer3) #重命名染色体匹配tRNAscan输出名称(基因组)<- c(names(基因组)[- 17l],"chrmt") tRNAprecursor <- get. getSeq(bsgenome . scerevisiae . ucsc . sacer3)基因组tRNAprecursor (gr)头(tRNAprecursor)
长度为6的DNAStringSet对象:## width seq names ## [1] 203 caatttgtatatatacatcta…AATTAAAGTAGCAGTACTTCAAC pre_chrI。tRNA1## [2] 173 AGCTTCTAAGCACTTACCATTCC...AATTCGTGAATAGCTGACTGTCA pre_chrI.tRNA2 ## [3] 214 GTCAGTGTCCAAATAGTTAAAAC...CATAATCTACGTAGGAATGAAAG pre_chrI.tRNA3 ## [4] 182 GTCATACTGACATATCTCATTTT...CCTCTTCAAAGCATACTCATCTT pre_chrI.tRNA4 ## [5] 184 GGGTAAAATAGGGTATTTAACTG...ATTAACTAGAATAATAGGGAAAT pre_chrII.tRNA1 ## [6] 191 TTTGCTAATAATAAATCTATTTC...TTCATTTCTAGGCCTGTTTCTCC pre_chrII.tRNA2

悬垂的长度可以用参数来定义add.5prime而且add.3prime,分别。两者都支持每个tRNA的单独长度,并且只要求值为整数。此外,内含子可以通过设置去除trim.introns = TRUE

6进一步的阅读

更多使用tRNA信息的例子可以在装饰图案tRNA包中。

7会话信息

sessionInfo ()
## R版本4.2.0 RC (22-04-21 r82226) ##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bio /R/lib/libRblas. ##因此## LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。因此## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# [3] LC_TIME=en_GB LC_COLLATE= c# [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# [9] LC_ADDRESS=C LC_TELEPHONE= c# [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ## [8] base ## ##其他附加的包:# # # # [1] BSgenome.Scerevisiae.UCSC.sacCer3_1.4.0 [2] BSgenome_1.65.0 # # [3] rtracklayer_1.57.0 # # [4] tRNAscanImport_1.17.0 # # [5] tRNA_1.15.0 # # [6] Structstrings_1.13.0 # # [7] Biostrings_2.65.0 # # [8] XVector_0.37.0 # # [9] GenomicRanges_1.49.0 # # [10] GenomeInfoDb_1.33.0 # # [11] IRanges_2.31.0 # # [12] S4Vectors_0.35.0 # # [13] BiocGenerics_0.43.0 # # [14] BiocStyle_2.25.0 # # # #通过加载一个名称空间(而不是附加):# # # # [1] MatrixGenerics_1.9.0 Biobase_2.57.0 [3] sass_0.4.1 jsonlite_1.8.0 # # [5] bslib_0.3.1 assertthat_0.2.1 # # [7] BiocManager_1.30.17 highr_0.9 # # [9] GenomeInfoDbData_1.2.8 Rsamtools_2.13.0 # # [11] yaml_2.3.5 pillar_1.7.0 # # [13] lattice_0.20-45 glue_1.6.2 # # [15] digest_0.6.29 RColorBrewer_1.1-3 # # [17] colorspace_2.0-3 htmltools_0.5.2 # # [19] Matrix_1.4-1 xml_3.99 - 0.9 # # [21] pkgconfig_2.0.3 magick_2.7.3 # # [23] bookdown_0.26 zlibbioc_1.43.0 # # [25] purrr_0.3.4 scales_1.2.0 # # [27]# [37] crayon_1.5.1 evaluate_0.15 ## [39] Modstrings_1.13.0 fansi_1.0.3 ## [41] tools_4.2.0 BiocIO_1.7.0 ## [43] lifecycle_1.0.1 matrixStats_0.62.0 ## [45] string_1 .4.0 munsell_0.5.0 ## [47] DelayedArray_0.23.0 compiler_4.2.0 ## [49] jquerylib_0.1.4 rlang_1.0.2 ## [51] grid_4.2.0 RCurl_1.98-1.6 ## [33] withr_2.5.0 SummarizedExperiment_1.27.0 ## [35] cli_3.3.0 magrittr_2.0.3 ## [37] crayon_1.5.1 evaluate_0.15 ## [39]rjson_0.2.21 bitops_1.0-7 ## [55] labeling_0.4.2 rmarkdown_2.14 ## [57] restfulr_0.0.0 13 gtable_0.3.0 ## # [59] DBI_1.1.2 R6_2.5.1 ##[61]基因组校正s_1.33.0 knitr_1.38 ## [63] dplyr_1.0.8 fastmap_1.1.0 ## [65] utf8_1.2.2 stringi_1.7.6 ## [67] rcps_1.0.8.3 parallel_4.2.0 ## [69] vctrs_0.4.1 tidyselect_1.1.2 ## [71] xfun_0.30

参考文献

Patricia P.和Todd M. Lowe. 2016。GtRNAdb 2.0:完整和草稿基因组中识别的转移Rna基因的扩展数据库。核酸的研究44 (D1): D184-9。https://doi.org/10.1093/nar/gkv1309

洛,t.m.和S. R.艾迪,1997。TRNAscan-Se:基因组序列中转移Rna基因的改进检测程序。核酸的研究25(5): 955 - 64。