在此小插图中,我们将使用来自多个组织的样品分析一个基因表达数据集。我们将:下载公共数据集识别在两个组织中表达的基因运行富集分析,认识每个组织的表达曲线可视化组织表达曲线之间基于网络的关系
我们将使用BGEEDB正常组织表达的数据。在研究中,我们通常希望将正常人与一个或多个治疗或疾病组进行比较。因此,将其视为一个说明性示例。
#加载ritan图书馆(Ritandata)图书馆(丽塔)#安装BGEE软件包。go.db是依赖关系的依赖性,可能需要单独安装。为了(PKG在C(('go.db',,,,'bgeedb',,,,'Biomart'){如果((呢(PKG%在%隆起((安装。包装())){如果((呢需求安第斯山脉((“ Biocmanager”,,,,安静=真的))install.packages((“ Biocmanager”)生物管理器::安装(PKG)}图书馆(PKG,字符=真的)}为了(PKG在C(('tidySelect',,,,'venn',,,,'Magrittr',,,,'ggplot2',,,,'igraph'){如果((呢(PKG%在%隆起((安装。包装())){install.packages(PKG)}图书馆(PKG,字符=真的)}#设置BGEE查询并获取数据(这可能需要一些时间)bgee < -BGEE$新的((物种=“ homo_sapiens”,,,,datatype =“ RNA_SEQ”,,,,释放=“ 13.2”)数据< -GetData(BGEE)e < -格式(bgee,数据[[[1],,,,calltype =“当下”,,,,统计=“ rpkm”)#使用:str(Samplenames(e)),str(featurenames(e)),str(phenodata(e))探索数据集桌子((phtodata(e)@数据$natomical.entity.name)## ----------------------------------##在两组中获得表达tmp < -Exprs(e)[,phtodata(e)@数据$natomical.entity.name==“心”这是给予的我< -申请(TMP,1,,,,功能(X){任何((是(X)) })expr_heart < -TMP [呢一世, ]tmp < -Exprs(e)[,phtodata(e)@数据$natomical.entity.name==“骨骼肌组织”这是给予的我< -申请(TMP,1,,,,功能(X){任何((是(X)) })expr_skele < -TMP [呢一世, ]维恩::维恩((列表((心=隆起(expr_heart),骨骼=隆起(expr_skele)),cexil =1,,,,cexsn =1,,,,zcolor =“风格”)## ----------------------------------emembl < -Usemart((“ emembl”,,,,数据集=“ hsapiens_gene_ensembl”,,,,“ http://aug2017.archive.ensembl.org”)#版本90map_heart < -getBM((属性=C(('emembl_gene_id',,,,'emembl_transcript_id',,,,'hgnc_symbol'),过滤器='emembl_gene_id',,,,值=隆起(expr_heart),mart =结合)map_skele < -getBM((属性=C(('emembl_gene_id',,,,'emembl_transcript_id',,,,'hgnc_symbol'),过滤器='emembl_gene_id',,,,值=隆起(expr_skele),mart =结合)## ----------------------------------##与每个组织的顶部基因相关的功能##重要:这里报告的p值是观察性的,而不是推论。MH < -申请(expr_heart,1, 意思是 )top_heart < -map_heart$hgnc_symbol [map_heart$emembl_gene_id%在%隆起(expr_heart)[MH>分位数(MH,,.975)]]%>%setdiff(。,,'')ms < -申请(expr_skele,1, 意思是 )top_skele < -map_skele$hgnc_symbol [map_skele$emembl_gene_id%在%隆起(expr_skele)[MS>分位数(小姐,.975)]]%>%setdiff(。,,'')e < -term_enrichment_by_subset((列表((心=top_heart,骨骼=top_skele),资源='go_slim_pir',,,,all_symbols =cached_coding_genes)阴谋(e [申请(e [,C((3:4),,,1, 最大限度)> =12,],,,cap =40,,,,label_size_y =8,,,,wrap_y_labels =错误的)## ----------------------------------##每个组织中的网络互动net_h < -network_overlap(top_heart,资源=C(('ccsb',,,,'DPPI',,,,“汉曼特”))net_s < -network_overlap(top_skele,资源=C(('ccsb',,,,'DPPI',,,,“汉曼特”))net2g < -功能(X){边缘< -as.matrix( X[,C((1,,,,3)))g < -Igraph::make_undirected_graph((C((t(边缘))))返回(G)}g_h < -net2g(net_h)g_s < -net2g(net_s)g_dif < -Igraph::区别(g_h,g_s)g_int < -Igraph::路口(g_h,g_s)猫((Sprintf(('在表达的最高基因中,%d共享,%d也有所不同。',,,,长度((v(g_int)),长度((v(g_dif)))))par((3月=代表((0,,,,4))阴谋(g_dif,vertex.size =2,,,,vertex.label =NA,,,,vertex.frame.Color ='白色的',,,,布局=layout_nicely)