的TissueEnrich
包用于计算组织特异性基因在一组输入基因中的富集。例如,用户可以从RNA-Seq数据中输入最高表达的基因,或者基因共表达模块,以确定哪些组织特异性基因在这些数据集中得到丰富。通过处理来自人类蛋白质图谱(HPA)的RNA-Seq数据来定义组织特异性基因。(Uhlén et al. 2015), GTEx(Ardlie et al. 2015),和鼠标ENCODE(Shen et al. 2012)使用HPA的算法(Uhlén et al. 2015).超几何测试被用于确定组织特异性基因是否在输入基因中富集。随着组织特异性基因的富集TissueEnrich
包还可用于从用户提供的表达数据集中定义组织特异性基因,然后可用于计算组织特异性基因富集。TissueEnrich
具有以下三个功能。
teEnrichment
:给定一个基因列表作为输入,该函数使用来自人类或小鼠RNA-Seq数据集的组织特异性基因计算组织特异性基因富集。teGeneRetrieval
:给定跨组织的基因表达数据,该函数通过使用来自HPA的算法定义组织特异性基因。teEnrichmentCustom
:给定来自teGeneRetrieval的基因列表和组织特异性基因作为输入,该函数计算组织特异性基因富集。注意:如果你在发表的研究中使用了tissueenrichment,请引用:
Jain, A, Tuteja, G. (2018) tissueenrichment:组织特异性基因富集分析。生物信息学,bty890.10.1093 /生物信息学/ bty890
请将所有与tissueenrichment包有关的问题或疑问张贴在Bioconductor支持网站.这将帮助我们建立一个可供其他用户使用的信息库。
https://support.bioconductor.org
请不将您的问题直接通过电子邮件发送给软件包的作者。
teEnrichment
:利用人或小鼠基因进行组织特异性基因富集的teEnrichment
函数用于计算输入基因集中组织特异性基因的富集。它使用组织特异性基因,通过处理来自人类和小鼠的RNA-Seq数据集定义。用户必须指定使用生物
(" Homo Sapiens "(默认值)或" Mus Musculus ")参数输入GeneSet对象。关于RNA-Seq数据集和组织特异性基因的更多细节将在下一节中讨论。
TissueEnrich
使用来自HPA, GTEx和小鼠ENCODE的RNA-Seq数据定义组织特异性基因。为了使组织特异性基因计算更可靠,我们只使用了有≥2个生物重复的组织。该工具中使用的数据集是:
当使用teEnrichment
,用户可指定RNA-Seq数据集(rnaSeqDataset
)用于组织特异性基因富集分析。
注意:从胚胎阶段分离出来的组织以“E”开头,后面跟着时间点。例如,在小鼠ENCODE数据中,从胚胎第14.5天分离出来的胎盘组织被命名为e14.5 -胎盘。所有其他组织都是与成虫分离的。
使用来自HPA的算法定义组织特异性基因(Uhlén et al. 2015),可分为以下几类:
在teEnrichment
,用户可指定特定组织基因的类型(tissueSpecificGeneType
)用于组织特异性基因富集分析。
超几何检验用于计算组织特异性基因富集。p值的计算公式为:
\ [P (X \ gt k) = \ \ limits_总和{我= k + 1} ^ n \压裂{{{k} \选择{我}}{{n - k} \选择{n}}} {{{n} \选择{n}}} \]折叠变化计算为:左(\[叠化= \ \压裂{k} {n} \右)/ \离开(\压裂{k} {n} \) \]
式中,N为基因总数,K为某组织的组织特异性基因总数,N为输入基因集中的基因数,K为输入基因集中的组织特异性基因数。p值可以通过设置Benjamini & Hochberg修正来校正多个假设检验multiHypoCorrection = TRUE
(这是真正的
默认情况下)。
tissueenrichment现在使用户能够提供背景基因进行组织特异性基因富集。在这种情况下,不是使用数据集中的所有基因,而是使用背景基因集来进行富集分析。需要注意的是,背景基因集必须包含输入基因集的所有基因。p值的计算公式为:\ [P (X \ gt k) = \ \ limits_总和{我= k + 1} ^ n \压裂{{{K_b} \选择{我}}{{N_b-K_b} \选择{n}}} {{{N_b} \选择{n}}} \]折叠变化计算为:左(\[叠化= \ \压裂{k} {n} \右)/ \离开(\压裂{K_b} {N_b} \) \]在那里,\ (N_b \)是背景基因的总数,\ (K_b \)为背景基因中某个组织的组织特异性基因总数,n为输入基因集中的基因数,k为输入基因集中的组织特异性基因数。p值可以通过设置Benjamini & Hochberg修正来校正多个假设检验multiHypoCorrection = TRUE
(这是真正的
默认情况下)。如果没有提供背景基因集,所有的基因将被用作背景。
本例使用从单细胞RNA-Seq分析中鉴定出的营养外胚层(TE)特异性基因,在植入前发育的第5、6和7天对人类囊胚进行分析(Petropoulos et al. 2016).使用PCA将单个细胞分配到内细胞群(外胚层+新生胚外内胚层)或TE。之后,使用差异基因表达分析生成了100个te特异性基因的列表(Petropoulos et al. 2016).我们使用这100个基因作为输入基因集,并使用HPA数据集定义的组织特异性基因进行组织特异性基因富集。
注意:输入基因集可以包含集成id (ENSEMBLIdentifier ()
)或基因符号(SymbolIdentifier ()
)(使用geneIdType
输入GeneSet对象中的参数)。
图书馆(TissueEnrich)基因< -执行(“extdata”,“inputGenes.txt”,包=“TissueEnrich”)inputGenes < -扫描(基因,字符())gs < -GeneSet(geneIds =inputGenes,生物=“智人”,geneIdType =SymbolIdentifier())输出< -teEnrichment(inputGenes =gs)
的输出
包含浓缩结果的列表对象。这些结果将在下一节中解释。
ggplot2
对象中的第一个对象输出
List是一个SummarizedExperiment
对象,其中包含\ (-Log_{10}(假定值)\)以及与输入基因集中组织特异性基因的数量相对应的折叠变化。该对象可用于可视化组织特异性基因富集的形式柱状图使用\ (-Log_{10}(假定值)\)值。
seEnrichmentOutput <与产出[[1]]enrichmentOutput < -setNames(data.frame(分析(seEnrichmentOutput),row.names =rowData(seEnrichmentOutput),1]),colData(seEnrichmentOutput),1])enrichmentOutput$组织< -row.names(enrichmentOutput)头(enrichmentOutput)组织。特异性。基因折叠。改变样品#>脂肪组织0.0000000 1 1.2394054#>肾上腺0.0000000#>附录1.0631035 4 4.4829558#>骨髓0.5552268 4 2.7907142#>乳房0.0000000#>大脑皮层0.0000000 3 0.4191623# >组织脂肪组织肾上腺#>附录#>骨髓骨髓#>乳房大脑皮层ggplot(enrichmentOutputaes(x =重新排序(组织、-Log10PValue),y =Log10PValue,标签=Tissue.Specific.Genes,填补=组织))+geom_bar(统计=“身份”)+实验室(x =”,y =log10 (P-Adjusted)”)+theme_bw()+主题(legend.position =“没有”)+主题(情节。title =element_text(hjust =0.5,大小=20.),轴。title =element_text(大小=15))+主题(axis.text.x =element_text(角=45,vjust =1,hjust =1),panel.grid.major =element_blank(),panel.grid.minor =element_blank())
在上图中,x轴表示每个组织,y轴表示组织特异性基因富集(\ (-Log_{10}(假定值)\))的值。正如预期的那样,100个te特异性基因显示胎盘特异性基因的富集。
该输出对象用于可视化组织特异性基因富集\ (-Log_{10}(假定值)\)值也可以用来绘制折叠变化值。
ggplot(enrichmentOutputaes(x =重新排序(组织、-fold.change),y =fold.change,标签=Tissue.Specific.Genes,填补=组织))+geom_bar(统计=“身份”)+实验室(x =”,y =“褶皱变化”)+theme_bw()+主题(legend.position =“没有”)+主题(情节。title =element_text(hjust =0.5,大小=20.),轴。title =element_text(大小=15))+主题(axis.text.x =element_text(角=45,vjust =1,hjust =1),panel.grid.major =element_blank(),panel.grid.minor =element_blank())
在上图中,x轴表示每个组织,y轴表示组织特异性基因富集的折叠变化值。
ggplot2
的第二个对象输出
包含从输入基因集中识别的组织特异性基因的表达值的列表。表达式值可以以热图的形式显示出来。例如,下面的代码生成一个热图,显示胎盘特定基因在所有组织中的表达。
图书馆(tidyr)seExp <与产出[[2]] [[“胎盘”]]exp < -setNames(data.frame(分析(seExp),row.names =rowData(seExp),1]),colData(seExp),1])经验值$基因< -row.names(实验)exp <实验% > %收集(关键=“组织”,值=“表情”,1:(ncol(实验)-1))ggplot(经验值,aes(组织、基因))+geom_tile(aes(填补=表达),颜色=“白色”)+scale_fill_gradient(低=“白色”,高=“钢蓝色的”)+实验室(x =”,y =”)+theme_bw()+指南(填补=guide_legend(title =“Log2 (TPM)”))+# (legend.position =“没有”)+主题主题(情节。title =element_text(hjust =0.5,大小=20.),轴。title =element_text(大小=15))+主题(axis.text.x =element_text(角=45,vjust =1,hjust =1),panel.grid.major =element_blank(),panel.grid.minor =element_blank())
的第三个对象输出
包含输入基因的组织特异性信息的列表。下面的代码检索组织特异性基因以及胎盘组织中的组织特异性类型。
的第四个对象输出
List是一个字符向量,它具有在组织特异性基因数据中未识别的输入基因列表。
的teEnrichment
Function可以从人类基因列表中计算小鼠组织特异性基因富集,反之亦然。用户只需指定输入数据是来自小鼠还是人类,并选择感兴趣的组织特定基因数据,无论是来自小鼠还是人类。该功能将使用人与小鼠之间一对一的蛋白质编码同源基因自动进行同源组织特异性基因富集,从Ensembl V91数据库下载(Aken et al. 2016).
在本例中,列出了100个te特异性基因组织特异性基因富集例使用小鼠ENCODE数据进行组织特异性基因富集。
图书馆(TissueEnrich)图书馆(ggplot2)基因< -执行(“extdata”,“inputGenes.txt”,包=“TissueEnrich”)inputGenes < -扫描(基因,字符())gs < -GeneSet(geneIds =inputGenes,生物=“智人”,geneIdType =SymbolIdentifier())输出< -teEnrichment(inputGenes =gs,rnaSeqDataset =3.)seEnrichmentOutput <与产出[[1]]enrichmentOutput < -setNames(data.frame(分析(seEnrichmentOutput),row.names =rowData(seEnrichmentOutput),1]),colData(seEnrichmentOutput),1])enrichmentOutput$组织< -row.names(enrichmentOutput)ggplot(enrichmentOutputaes(x =重新排序(组织、-Log10PValue),y =Log10PValue,标签=Tissue.Specific.Genes,填补=组织))+geom_bar(统计=“身份”)+实验室(x =”,y =log10 (P-Adjusted)”)+theme_bw()+主题(legend.position =“没有”)+主题(情节。title =element_text(hjust =0.5,大小=20.),轴。title =element_text(大小=15))+主题(axis.text.x =element_text(角=45,vjust =1,hjust =1),panel.grid.major =element_blank(),panel.grid.minor =element_blank())
这一结果表明,人te特异性基因也显示小鼠胎盘特异性基因的富集。
teGeneRetrieval
:组织特异性基因鉴定的teGeneRetrieval
函数用于定义组织特异性基因,使用来自HPA的算法(Uhlén et al. 2015).它需要一个SummarizedExperiment
对象,其中包含作为输入的表达信息(行为基因,列为组织),并将基因分类为不同的基因组,并在另一个基因组中返回信息SummarizedExperiment
对象。用户还可以选择改变默认阈值,以改变基因的组织特异性程度。关于基因组和HPA阈值的更多细节如下所示。
这些基因根据它们在组织中的基因表达被分为六组。这些群体是:
基因来自组织丰富,集团丰富,组织增强群被分类为组织特异性基因。
在下面的例子中,我们提供了小鼠ENCODE数据的子集,包括17个组织中36个基因的表达数据。
图书馆(TissueEnrich)图书馆(SummarizedExperiment)数据< -执行(“extdata”,“test.expressiondata.txt”,包=“TissueEnrich”)expressionData < -read.table(数据、头=真正的,row.names =1,9月='\ t')se < -SummarizedExperiment(化验=SimpleList(as.matrix(expressionData)),rowData =row.names(expressionData),colData =colnames(expressionData))输出< -teGeneRetrieval(se)头(分析(输出)#>基因组织组#> [1,] "ENSMUSG00000003200" "所有" "所有表达"#> [2,] "ENSMUSG00000003206" "骨头。骨髓Tissue-Enhanced”#> [3,] "ENSMUSG00000003208" "所有" "混合"#> [4,] "ENSMUSG00000004530" "All" " expression - in -All"#> [5,] "ENSMUSG00000004535" "All" " expression - in -All"#> [6,] " ensmusg00000004540 " " e14.5 . #> [6,] " ensmusg00000004540 "胎盘Tissue-Enriched”
如上所示,输出
由a中的组织特异性基因信息组成SummarizedExperiment
对象,其中列为基因名称、组织名称和组织特定组。
teEnrichmentCustom
:自定义表达数据集中的组织特异性基因富集的teEnrichmentCustom
功能是用来计算组织特异性基因富集使用组织特异性基因定义使用teGeneRetrieval
函数。
这个例子使用了10个基因,从36个基因中随机选择组织特异性基因检索的例子。从自定义基因表达中识别的组织特异性基因用于计算输入基因集中的组织特异性基因富集。
图书馆(TissueEnrich)图书馆(ggplot2)基因< -执行(“extdata”,“inputGenesEnsembl.txt”,包=“TissueEnrich”)inputGenes < -扫描(基因,字符())gs < -GeneSet(geneIds =inputGenes)output2 < -teEnrichmentCustom(gs、输出)enrichmentOutput < -setNames(data.frame(分析(output2 [[1]]),row.names =rowData(output2 [[1[]]),1]),colData(output2 [[1[]]),1])ggplot(enrichmentOutputaes(x =重新排序(组织、-Log10PValue),y =Log10PValue,标签=Tissue.Specific.Genes,填补=组织))+geom_bar(统计=“身份”)+实验室(x =”,y =log10 (P-Adjusted)”)+theme_bw()+主题(legend.position =“没有”)+主题(情节。title =element_text(hjust =0.5,大小=20.),轴。title =element_text(大小=15))+主题(axis.text.x =element_text(角=45,vjust =1,hjust =1),panel.grid.major =element_blank(),panel.grid.minor =element_blank())
如上所示,输出的元数据由包含富集结果的列表对象中的特定组织的基因富集信息组成。
Aken, Bronwen L, Sarah Ayling, Daniel Barrell, Laura Clarke, Valery Curwen, Susan Fairley, Julio Fernandez Banet等。2016。“Ensembl基因注释系统。”数据库:生物数据库和管理杂志2016.牛津大学出版社。https://doi.org/10.1093/database/baw093.
阿德利,克里斯汀·G,大卫·s·德卢卡,阿耶莱特·V. Segrè,蒂莫西·j·沙利文,泰勒·r·杨,艾伦·t·盖尔凡德,卡桑德拉·a·特罗布里奇等。2015。基因型-组织表达(Gtex)先导分析:人类多组织基因调控科学348(6235)。美国科学促进会:648-60。https://doi.org/10.1126/science.1262110.
Petropoulos, Sophie, Daniel Edsgärd, Björn Reinius,邓巧林,Sarita Pauliina Panula, Simone Codeluppi, Alvaro Plaza Reyes, Sten Linnarsson, Rickard Sandberg和Fredrik Lanner。2016。“单细胞RNA-Seq揭示了人类植入前胚胎的谱系和X染色体动态。”细胞35 (4). Elsevier: 344 - 344。https://doi.org/10.1016/j.cell.2016.03.023.
Shen, Yin, Feng Yue, David F. McCleary, Zhen Ye, Lee Edsall, Samantha Kuan, Ulrich Wagner等。2012。“老鼠基因组中顺式调控序列的地图。”自然448(7409)。http://www.nature.com/articles/nature11243.
Uhlén, Mathias, Linn Fagerberg, Björn M. Hallström, Cecilia Lindskog, Per Oksvold, Adil Mardinoglu, Asa Sivertsson,等。2015。"基于组织的人类蛋白质组图谱"科学347(6220)。美国科学促进会。https://doi.org/10.1126/science.1260419.