蛋白质与其同源底物的结合来调节许多类型的生物学活性。特别感兴趣的是转录因子与DNA的序列特异性结合,通常是在基因转录起始位点上游的调节区域中。这些结合事件在调节基因表达中起关键作用。
密切相关的结合位点之间的序列特异性几乎总是不完整的:常规观察到DNA序列中的某些变化。因此,这些不精确的结合序列模式通常被描述为主题,以数值表示为频率矩阵,并将其视为序列徽标。
尽管它们在当前的研究中很重要,但迄今为止,据我们所知,没有单一的,注释,全面的公开图案集合。当前的软件包试图提供这样的收藏,在生物导体项目的背景下,提供了来自多个生物体的一万多个带注释的矩阵。可以根据其元数据(例如,可以使用Seqlogo用于可视化)或易于导出标准软件和网站,例如,可以使用其他生物导体软件包(例如,seqlogo用于可视化)过滤和选择矩阵(例如,seqlogo均可用于可视化)。模因套房。
转录因子结合位点(TFB)只能从基序与DNA序列的序列匹配中不完美预测。使用MotifDB时,请记住,实际和功能性的TF结合发生在许多因素的影响下:
尽管如此,与DNA序列匹配的基序在鉴定基因调节事件中起着重要作用。
CTCF是调节染色质3D结构的DNA结合因子[CTCF:基因组大师,飞利浦和尸体,2009年,牢房。https://www.ncbi.nlm.nih.gov/pmc/articles/pmc3040116]。它的约束主题是什么?
主题询问函数通过所有主题的所有元数据(所有注释)执行广泛的,中性的文本搜索。它返回匹配图案列表。下面提供了有关元数据的更多信息。
我们从一个简单的搜索开始,该搜索检索了用案例中性字符串“ CTCF”注释的所有图案。
库(MotifDB)查询(MotifDB,“ CTCF”)
## Motifdb长度的对象24 ## |由下载的公共资源创建,最后更新:2022-MAR-04 ## |24个位置频率矩阵来自10个来源:## |Hocomocov10:3 ## |Hocomocov11核-A:2 ## |荷马:3 ## |Jaspar_2014:2 ## |jaspar_core:1 ## |Swissregulon:2 ## |jaspar2016:2 ## | jaspar2018: 3 ## | jaspar2022: 5 ## | jolma2013: 1 ## | 4 organism/s ## | Hsapiens: 16 ## | Dmelanogaster: 4 ## | Mmusculus: 1 ## | other: 3 ## Hsapiens-SwissRegulon-CTCFL.SwissRegulon ## Hsapiens-SwissRegulon-CTCF.SwissRegulon ## Hsapiens-HOCOMOCOv10-CTCFL_HUMAN.H10MO.A ## Hsapiens-HOCOMOCOv10-CTCF_HUMAN.H10MO.A ## Mmusculus-HOCOMOCOv10-CTCF_MOUSE.H10MO.A ## ... ## Dmelanogaster-jaspar2022-CTCF-MA0531.1 ## Hsapiens-jaspar2022-CTCFL-MA1102.2 ## Hsapiens-jaspar2022-CTCF-MA1929.1 ## Hsapiens-jaspar2022-CTCF-MA1930.1 ## Hsapiens-jolma2013-CTCF
让我们完善搜索,仅寻找人类Jaspar 2018或Hocomoco V11核心图案,类别为“ A”。消除“ CTCFL”。
库(motifdb)主题< - query(motifdb,andStrings = c(“ ctcf”,“ hsapiens”),orstrings = c(“ jaspar2018”,“ hocomocov11-core-a”),notstrings =“ ctcfl”)长度(矩阵))
## [1] 2
来自不同来源的图案有时同意,有时有些不同。存在用于比较的分析方法,其中两个是
* Bioconductor软件包[difflogo](//www.andersvercelli.com/packages/release/release/bioc/html/difflogo.html) * Meme Suites [tomtom](http://meme-suite.orget.org/doc/doc/doc/tomtom.htomtom.htom.htom.htom.htom.htom.htom.htom.htom.htom.htom.htom.htom.htom.htom.html)
生物弦功能共识提供快速,有时是足够的比较。在这种情况下,这表明这两个主题几乎是相同的:
Sapply(主题,共识)
## hsapiens-jaspar2018-ctcf-ma0139.1 ##“ t ?? ccac?aggggggcgc ??”## HSAPIENS-HOCOMOCOV11-core-a-ctcf_human.h11mo.0.a ##“?ggcccaccagggggggcgc?”
我们还可以使用bioconductor套件在视觉上检查相似性seqlogo
库(seqlogo)seqlogo(主题[[1]])#hsapiens-jaspar2018-ctcf-ma0139.1 seqlogo(主题[[2]]
尽管我们无法提供对此警告警告的发布,同行评审的支持,但我们敦促您考虑它及其含义。
有人试图将来自尊敬的源的精选基序矩阵视为TF/DNA结合电位的可靠指南。一种常见的策略是与序列匹配,仅保留一定阈值忠诚度以上的匹配:例如MinScore用于BioStrings :: MatchPWM或p值或Q值阈值fimo。
我们使用最近的高质量CTCF芯片序列和FIMO探索了此主题(未发表的数据),默认的p值序列匹配阈值为1E-4。该散点图表明,有时在基匹配分数低的结合位点出现高分芯片序列命中。因此,我们建议基序匹配在与其他信息(例如来自高度分辨的实验(SCATAC-SEQ),DNase足迹,表观遗传标记和相关组织特异性或细胞类型特异性基因和特异性基因和特异性基因和相关的特异性基因和相关的特异性基因和相关的特定基因和相关的特异性基因和相关的特异性基因和相关的特异性基因和相关的特异性基因和相关的染色质中最有用。TF蛋白表达。