资源之间的关系

迈克尔·齐默尔曼(Michael T. Zimmermann)

2022-05-01

识别基因组之间的关系

丽塔的一个特征是能够考虑到跨资源的错误分辨率。但是,基因组之间的关系并不总是显而易见的。也就是说,两个资源的术语可能与另一个术语高度相似。理想情况下,您将在分析之前选择其中一个用来使用的术语。函数geneset_overlap()通过识别具有相当大的重叠和合并的术语来帮助解决此过程。

图书馆(Ritandata)图书馆(丽塔)
#显示多种疾病 - 基因关系共同的基因的比例。o < -geneset_overlap(geneset_list$拆下)阴谋((密度((C(o [Upper.tri(o)])),log ='y',,,,ylim =C((1E-3,,,,1E3),main ='',,,,xlab =“分数共享基因”,,,,ylab ='概率()'

#显示每种疾病的重叠至少80%时,显示疾病及其基因水平重叠。诊断(o)< -NA#忽略自我掩盖我< -哪个(o>0.8,,,,arr.ind =真的垫子< -o [独特的(一世[,1]),,独特的(一世[,2]]]]热图(垫子,col =修订版((灰色的((seq((0,,,,1,,,,length.out =15)),cexrow =7,,,,cexcol =0.7,,,,边距=C((7,,,,7))

#显示疾病 - 基因关系和慢性术语定义之间常见基因的比例o < -geneset_overlap(geneset_list$disgenet,geneset_list$go_slim_generic)o < -o [,((Colnames(o)%在%C((“生物_Process”,,,,“ Molecular_Function',,,,'cellular_component')]]#删除每个亚主体的根部阴谋((密度((C(o)),log ='y',,,,main ='',,,,xlab =“分数共享基因”,,,,ylab ='概率()'

#显示疾病和术语共享95%基因的关系的热图我< -哪个(o>0.95,,,,arr.ind =真的垫子< -o [独特的(一世[,1]),,独特的(一世[,2]]]]热图(垫子,col =修订版((灰色的((seq((0,,,,1,,,,length.out =15)),cexrow =7,,,,cexcol =0.7,,,,边距=C((7,,,,7))

###重叠的基因本身可以提供高度信息。例如,也许已知涉及负责染色体组织的基因的疾病对您很感兴趣。您可以将Ritan中的可用资源结合起来,以快速识别基因组的交集。

隆起(o)[o [,“ Chromosome_ormanization”这是给予的>0.66这是给予的
## [1]“棺材 - 西里斯综合症” ## [2]“白血病,髓样” ## [3]“白血病,巨大的综合症” ## [4]“近直肠肿瘤,遗传性肿瘤,遗传性非polypolyposis” ## [## [## [5]“恶性肿瘤乳房”

因此,在一个地方(例如Ritan)拥有许多术语资源,促进了知识整合。

可以将诸如此类的功能组合起来,以研究知识资源之间的关系以及进一步研究中使用的结果。

可以将疾病和功能关系(例如与细胞运动相关的疾病)组合结合起来,以形成新的基因组。然后可以在Term_enrighment()中使用此新基因组来注释您自己的数据集。

d < -隆起(o)[o [,“ cell_motity”这是给予的>0.66这是给予的str(d)
## chr [1:20]“ Kartagener综合征”“血栓栓塞” ...
new_geneset < -相交((独特的((非主义者(geneset_list$disgenet [d])),独特的((非主义者(geneset_list$go_slim_generic$cell_motility))))str(new_geneset)
## chr [1:86]“ ccdc40”“ dnah5”“ dnai1”“ drc1”“ dyx1c1”“ f2”“ f7”“ f7”“ gas6” ...

#我们制作了一个名为Resource_reduce的函数,以帮助用户专注于Geneset资源的唯一部分。

unique_diseases < -Resource_Reduce(geneset_list$拆下)
## ##输入列表有604个术语/基因。## 55个术语为0.80,合并为22个综合项。##将返回带有571条的更新术语列表。
unique_disease_slim < -Resource_Reduce((C(geneset_list$disgenet,geneset_list$go_slim_generic),min_overlap =0.95
## ##输入列表有746个术语/基因。## 326个术语为0.95,合并为29个综合项。##将返回带有449个条款的更新术语列表。

运行Resource_Reduce()后,新术语/基因组的共享基因的MIN_OVERLAP分数少。如果MIN_OVERLAP设置为高阈值,则数据集中仍将存在很强的相关性,但是将合并冗余项。如果min_overlap设置为较低的阈值,则最终的术语将在很大程度上是独立的,但是它们可能是较小数量的非常大的术语/基因(许多合并)。

如果使用的术语之间存在关系,则Ritan中使用的多重测试校正将过于保守。

多么严格取决于您的应用程序 - 如何注释和解释数据。