识别基因组之间的关系

丽塔的一个特征是能够考虑到跨资源的错误分辨率。但是，基因组之间的关系并不总是显而易见的。也就是说，两个资源的术语可能与另一个术语高度相似。理想情况下，您将在分析之前选择其中一个用来使用的术语。函数geneset_overlap（）通过识别具有相当大的重叠和合并的术语来帮助解决此过程。

图书馆（Ritandata）图书馆（丽塔）

＃显示多种疾病 - 基因关系共同的基因的比例。o < -geneset_overlap（geneset_list$拆下）阴谋（（密度（（C（o [Upper.tri（o）]）），log ='y'，，，，ylim =C（（1E-3，，，，1E3），main =''，，，，xlab =“分数共享基因”，，，，ylab ='概率（）'）

＃显示每种疾病的重叠至少80％时，显示疾病及其基因水平重叠。诊断（o）< -NA＃忽略自我掩盖我< -哪个（o>0.8，，，，arr.ind =真的）垫子< -o [独特的（一世[，1]），，独特的（一世[，2]]]]热图（垫子，col =修订版（（灰色的（（seq（（0，，，，1，，，，length.out =15）），cexrow =。7，，，，cexcol =0.7，，，，边距=C（（7，，，，7））

＃显示疾病 - 基因关系和慢性术语定义之间常见基因的比例o < -geneset_overlap（geneset_list$disgenet，geneset_list$go_slim_generic）o < -o [，呢（（Colnames（o）％在％C（（“生物_Process”，，，，“ Molecular_Function'，，，，'cellular_component'）]]＃删除每个亚主体的根部阴谋（（密度（（C（o）），log ='y'，，，，main =''，，，，xlab =“分数共享基因”，，，，ylab ='概率（）'）

＃显示疾病和术语共享95％基因的关系的热图我< -哪个（o>0.95，，，，arr.ind =真的）垫子< -o [独特的（一世[，1]），，独特的（一世[，2]]]]热图（垫子，col =修订版（（灰色的（（seq（（0，，，，1，，，，length.out =15）），cexrow =。7，，，，cexcol =0.7，，，，边距=C（（7，，，，7））

###重叠的基因本身可以提供高度信息。例如，也许已知涉及负责染色体组织的基因的疾病对您很感兴趣。您可以将Ritan中的可用资源结合起来，以快速识别基因组的交集。

隆起（o）[o [，“ Chromosome_ormanization”这是给予的>0.66这是给予的

## [1]“棺材 - 西里斯综合症” ## [2]“白血病，髓样” ## [3]“白血病，巨大的综合症” ## [4]“近直肠肿瘤，遗传性肿瘤，遗传性非polypolyposis” ## [## [## [5]“恶性肿瘤乳房”

因此，在一个地方（例如Ritan）拥有许多术语资源，促进了知识整合。

可以将诸如此类的功能组合起来，以研究知识资源之间的关系以及进一步研究中使用的结果。

可以将疾病和功能关系（例如与细胞运动相关的疾病）组合结合起来，以形成新的基因组。然后可以在Term_enrighment（）中使用此新基因组来注释您自己的数据集。

d < -隆起（o）[o [，“ cell_motity”这是给予的>0.66这是给予的str（d）

## chr [1:20]“ Kartagener综合征”“血栓栓塞” ...

new_geneset < -相交（（独特的（（非主义者（geneset_list$disgenet [d]）），独特的（（非主义者（geneset_list$go_slim_generic$cell_motility））））str（new_geneset）

## chr [1:86]“ ccdc40”“ dnah5”“ dnai1”“ drc1”“ dyx1c1”“ f2”“ f7”“ f7”“ gas6” ...

＃我们制作了一个名为Resource_reduce的函数，以帮助用户专注于Geneset资源的唯一部分。

unique_diseases < -Resource_Reduce（geneset_list$拆下）

## ##输入列表有604个术语/基因。## 55个术语为0.80，合并为22个综合项。##将返回带有571条的更新术语列表。

unique_disease_slim < -Resource_Reduce（（C（geneset_list$disgenet，geneset_list$go_slim_generic），min_overlap =0.95）

## ##输入列表有746个术语/基因。## 326个术语为0.95，合并为29个综合项。##将返回带有449个条款的更新术语列表。

运行Resource_Reduce（）后，新术语/基因组的共享基因的MIN_OVERLAP分数少。如果MIN_OVERLAP设置为高阈值，则数据集中仍将存在很强的相关性，但是将合并冗余项。如果min_overlap设置为较低的阈值，则最终的术语将在很大程度上是独立的，但是它们可能是较小数量的非常大的术语/基因（许多合并）。

如果使用的术语之间存在关系，则Ritan中使用的多重测试校正将过于保守。

多么严格取决于您的应用程序 - 如何注释和解释数据。

资源之间的关系

迈克尔·齐默尔曼（Michael T. Zimmermann）

2022-05-01

识别基因组之间的关系