主题比较使用TomTom

看到包网站完整的装饰图案

Bioconductor构建系统没有安装MEME套件,因此这些小插曲不会包含任何R输出。要查看完整的装饰图案,迷因网站上访问这篇文章页面在这个链接

介绍

TomTom的工具比较一组已知的主题图案。需要作为输入一组主题和一个已知的主题数据库返回排名的意义之间的匹配输入和已知的主题。TomTom可以使用运行runTomTom ()函数。

图书馆(文化)图书馆(magrittr)

接受数据库格式

runTomTom ()可以接受多种输入作为“已知”主题数据库。格式如下:-路径.meme格式文件(如“fly_factor_survey.meme”)——universalmotifs——输出对象的列表runDreme ()——一个列表()上面的所有。如果条目是命名,runTomTom ()将使用这些名称作为数据库标识符

设置一个默认的数据库

可以配置为使用一个默认的模因.meme格式文件作为查询数据库,它将使用如果用户不提供一个值数据库当调用runTomTom ()。以下位置将搜索顺序:

  1. meme_db使用定义的选项,选项(meme_db =“路径/ / database.meme”)
  • meme_dbR选项还可以被设置为一个对象,就像一个universalmotif列表。
  1. MEME_DB环境变量中定义.Renviron
  • MEME_DB变量将只接受.meme文件的路径

注意:如果找到一个无效的位置在一个选择,runTomTom ()将退回到下一个位置如果有效的(例如,如果meme_db选项设置为一个无效的文件,但是MEME_DB环境变量是一个有效的文件,MEME_DB将使用路径。

输入类型

使用TomTom现有图案,runTomTom ()会接受任何图案吗universalmotif格式。的universalmotif包提供了一些实用程序导入数据从不同的来源。

runTomTom ()也可以输出的runDreme作为输入。这允许用户轻松地发现从头图案,然后匹配组已知的主题。运行时的输出runDreme,所有runTomTom ()将附加到输出列runDreme ()输出data.frame,所以不会丢失任何信息。

输出数据

运行时使用universalmotif对象作为输入,runTomTom返回列如下:

列preappended与best_显示相应的数据最好的比赛中列出的主题的名字

tomtom列是一个特殊的列包含一个嵌套data.frame的等级次序的TomTom点击列表中列出的主题的名字

best_match_motif最佳匹配的列包含universalmotif表示主题。

match_motif列的tomtom包含universalmotif格式的主题从数据库中对应于每一场比赛在降序排列。

drop_best_match ()功能下降的所有best_match_ *列的runTomTom ()输出。

unnest运算了tomtomdata.frame列,使用tidyr: unnest运算()。的drop_best_match ()函数可以是有用的在这个清理unnest运算data.frame。

re-nest tomtom的结果,使用nest_tomtom ()(注意:best_match_列将自动更新基于排序的tomtomdata.frame)

操纵分配的最佳匹配

TomTom可以用于限制潜在的真正主题匹配的搜索空间,通常默认的“最佳匹配”不是正确的作业。用户应该使用他们的特定领域的知识结合TomTom做出这个判断返回的数据(详情见下文)。模因提供了一些便利功能重新分配这些值。

首先,update_best_match ()函数将更新的值best_match *列反映存储在第一行的值tomtomdata.frame条目。这意味着的排名tomtom数据是有意义的,用户应该只操纵它如果想要创建的副作用。

如果用户可以强迫主题包含一个特定主题的最佳匹配使用force_best_match ()函数。force_best_match ()以一个名为向量作为输入,输入主题名称对应的名字,对应于一个值match_name中发现的tomtom列表数据(注意:这意味着用户无法迫使最佳匹配是一个主题,TomTom不返回作为一个潜在的匹配)。

例如,下面的例子主题可以匹配“Eip93F_SANGER_10”,或“Lag1_Cell”。

当前最佳匹配被列为“Eip93F_SANGER_10”。

迫使“example_motif”作为“Lag1_Cell”最佳匹配,做到以下几点:

best_match_ *列将被更新以反映修改。

可视化数据

view_tomtom_hits ()可以用来比较的支安打tomtom每个输入主题。点击所示由等级降序排列。默认情况下,所有点击显示,用户可以通过一个整数top_n查看主题的最高数量。这可能是一个有用的情节决定哪些比赛似乎是“最好”的打击。

例如,看来确实“Eip93F_SANGER_10”是最好的前三支安打,因为大多数匹配序列的“Lag1_Cell”和“pho_SOLEXA_5”主题对应于低信息内容区域匹配的图案。

导入之前的数据

importTomTomXML ()可以用来导入吗tomtom.xml文件从先前的MEME服务器或在命令行上运行。细节如何拯救TomTom网络服务器的数据如下所示。

保存数据从TomTom Web服务器

从模因服务器下载XML数据,右键单击TomTom XML输出链接和“目标另存为”或“链接另存为”(见下图)例子,并保存<文件名> . xml。这个文件可以阅读使用importTomTomXML ()

引用

模因是一个包装器从模因选择一些工具套件,这是由另一组。除了引用模因,请引用相对应的MEME套件工具的工具使用。

如果你使用runTomTom ()在你的分析,请列举:

JA Stamatoyannopolous Shobhit Gupta,蒂莫西·贝利和威廉·斯塔福德高贵,“量化相似主题”,基因组生物学、8 (2)::R24, 2007年。全文

许可限制

非营利性使用MEME套件是免费的,但以营利为目的的用户应该购买一个许可证。看到MEME套件版权页获取详细信息。

会话信息

sessionInfo()# > R版本4.2.1(2022-06-23)准备# >平台:x86_64-pc-linux-gnu(64位)# >下运行:Ubuntu 20.04.5 LTS# ># >矩阵产品:违约# >布拉斯特区:/home/biocbuild/bbs - 3.16 - bioc / R / lib / libRblas.so# > LAPACK: /home/biocbuild/bbs - 3.16 - bioc / R / lib / libRlapack.so# ># >语言环境:# > [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C# >[3]而= en_GB LC_COLLATE = C# > [5]LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US.UTF-8# > [7]LC_PAPER = en_US。utf - 8 LC_NAME = C# > [9]LC_ADDRESS C = C LC_TELEPHONE =# > [11]LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C# ># >附加基本包:# >[1]统计图形grDevices跑龙套基础数据集的方法# ># >其他附加包:# > [1]universalmotif_1.16.0 magrittr_2.0.3 memes_1.6.0# ># >加载通过名称空间(而不是附加):# > [1]Rcpp_1.0.9 tidyr_1.2.1 Biostrings_2.66.0# > [4]ggseqlogo_0.1 assertthat_0.2.1 rprojroot_2.0.3# > [7]digest_0.6.30 utf8_1.2.2 R6_2.5.1# > [10]GenomeInfoDb_1.34.0 stats4_4.2.1 evaluate_0.17# > [13]highr_0.9 ggplot2_3.3.6 pillar_1.8.1# > [16]zlibbioc_1.44.0 rlang_1.0.6 jquerylib_0.1.4# > [19]S4Vectors_0.36.0 R.utils_2.12.1 R.oo_1.25.0# > [22]rmarkdown_2.17 desc_1.4.2 readr_2.1.3# > [25]stringr_1.4.1 cmdfun_1.0.2 rcurl_1.98 - 1.9# > [28]munsell_0.5.0 compiler_4.2.1 xfun_0.34# > [31]pkgconfig_2.0.3 BiocGenerics_0.44.0 htmltools_0.5.3# > [34]tidyselect_1.2.0 tibble_3.1.8 GenomeInfoDbData_1.2.9# > [37]IRanges_2.32.0 matrixStats_0.62.0 fansi_1.0.3# > [40]withr_2.5.0 crayon_1.5.2 dplyr_1.0.10# > [43]tzdb_0.3.0 mass_7.3 - 58.1 bitops_1.0-7# > [46]brio_1.1.3 R.methodsS3_1.8.2 waldo_0.4.0# > [49]grid_4.2.1 jsonlite_1.8.3 gtable_0.3.1# > [52]lifecycle_1.0.3 DBI_1.1.3 scales_1.2.1# > [55]cli_3.4.1 stringi_1.7.8 cachem_1.0.6# > [58]farver_2.1.1 XVector_0.38.0 testthat_3.1.5# > [61]bslib_0.4.0 ellipsis_0.3.2 generics_0.1.3# > [64]vctrs_0.5.0 tools_4.2.1 glue_1.6.2# > [67]purrr_0.3.5 hms_1.1.2 pkgload_1.3.1# > [70]fastmap_1.1.0 yaml_2.3.6 colorspace_2.0-3# > [73]GenomicRanges_1.50.0 knitr_1.40 sass_0.4.2