TissueEnrich
如何获得组织充实的帮助
teEnrichment:利用人或小鼠基因进行组织特异性基因富集
teGeneRetrieval:组织特异性基因鉴定
- 基因组织
- 例如:组织特异性基因检索
teEnrichmentCustom:自定义表达数据集中的组织特异性基因富集
- 示例:自定义数据集中组织特异性基因富集
参考文献

TissueEnrich

的TissueEnrich包用于计算组织特异性基因在一组输入基因中的富集。例如，用户可以从RNA-Seq数据中输入最高表达的基因，或者基因共表达模块，以确定哪些组织特异性基因在这些数据集中得到丰富。通过处理来自人类蛋白质图谱(HPA)的RNA-Seq数据来定义组织特异性基因。(Uhlén et al. 2015), GTEx(Ardlie et al. 2015)，和鼠标ENCODE(Shen et al. 2012)使用HPA的算法(Uhlén et al. 2015)．超几何测试被用于确定组织特异性基因是否在输入基因中富集。随着组织特异性基因的富集TissueEnrich包还可用于从用户提供的表达数据集中定义组织特异性基因，然后可用于计算组织特异性基因富集。TissueEnrich具有以下三个功能。

teEnrichment:给定一个基因列表作为输入，该函数使用来自人类或小鼠RNA-Seq数据集的组织特异性基因计算组织特异性基因富集。
teGeneRetrieval:给定跨组织的基因表达数据，该函数通过使用来自HPA的算法定义组织特异性基因。
teEnrichmentCustom:给定来自teGeneRetrieval的基因列表和组织特异性基因作为输入，该函数计算组织特异性基因富集。

注意:如果你在发表的研究中使用了tissueenrichment，请引用:

Jain, A, Tuteja, G. (2018) tissueenrichment:组织特异性基因富集分析。生物信息学，bty890．10.1093 /生物信息学/ bty890

如何获得组织充实的帮助

请将所有与tissueenrichment包有关的问题或疑问张贴在Bioconductor支持网站．这将帮助我们建立一个可供其他用户使用的信息库。

https://support.bioconductor.org

请不将您的问题直接通过电子邮件发送给软件包的作者。

`teEnrichment`:利用人或小鼠基因进行组织特异性基因富集

的teEnrichment函数用于计算输入基因集中组织特异性基因的富集。它使用组织特异性基因，通过处理来自人类和小鼠的RNA-Seq数据集定义。用户必须指定使用生物(" Homo Sapiens "(默认值)或" Mus Musculus ")参数输入GeneSet对象。关于RNA-Seq数据集和组织特异性基因的更多细节将在下一节中讨论。

RNA-Seq数据集

TissueEnrich使用来自HPA, GTEx和小鼠ENCODE的RNA-Seq数据定义组织特异性基因。为了使组织特异性基因计算更可靠，我们只使用了有≥2个生物重复的组织。该工具中使用的数据集是:

下丘脑-垂体-肾上腺轴的数据集:35个人体组织的RNA-Seq数据(Uhlén et al. 2015)．
GTEx数据集:29个人体组织的RNA-Seq数据(Ardlie et al. 2015)．
鼠标编码数据集:17个小鼠组织的RNA-Seq数据(Shen et al. 2012)．

当使用teEnrichment，用户可指定RNA-Seq数据集(rnaSeqDataset)用于组织特异性基因富集分析。

1为“Human Protein Atlas”(默认)
2代表“GTEx”
3“鼠标编码”

注意:从胚胎阶段分离出来的组织以“E”开头，后面跟着时间点。例如，在小鼠ENCODE数据中，从胚胎第14.5天分离出来的胎盘组织被命名为e14.5 -胎盘。所有其他组织都是与成虫分离的。

定义组织特异性基因

使用来自HPA的算法定义组织特异性基因(Uhlén et al. 2015)，可分为以下几类:

组织丰富:表达水平大于1的基因(TPM或FPKM)，与所有其他组织相比，在特定组织中表达水平至少高5倍。
集团丰富:表达水平大于1的基因(TPM或FPKM)，在2-7组组织中表达水平比所有其他组织高至少5倍，并且不被认为是组织富集的。
组织改进:表达水平大于1的基因(TPM或FPKM)，在特定组织中的表达水平比所有其他组织中的平均水平至少高5倍，并且不被认为是组织富集或群体富集。

在teEnrichment，用户可指定特定组织基因的类型(tissueSpecificGeneType)用于组织特异性基因富集分析。

1表示“All”(默认)
2为“组织丰富”
3 .“组织强化”
4 .“团体充实”

超几何检验

超几何检验用于计算组织特异性基因富集。p值的计算公式为:

\ [P (X \ gt k) = \ \ limits_总和{我= k + 1} ^ n \压裂{{{k} \选择{我}}{{n - k} \选择{n}}} {{{n} \选择{n}}} \]折叠变化计算为:左(\[叠化= \ \压裂{k} {n} \右)/ \离开(\压裂{k} {n} \) \]

式中，N为基因总数，K为某组织的组织特异性基因总数，N为输入基因集中的基因数，K为输入基因集中的组织特异性基因数。p值可以通过设置Benjamini & Hochberg修正来校正多个假设检验multiHypoCorrection = TRUE(这是真正的默认情况下)。

背景基因

tissueenrichment现在使用户能够提供背景基因进行组织特异性基因富集。在这种情况下，不是使用数据集中的所有基因，而是使用背景基因集来进行富集分析。需要注意的是，背景基因集必须包含输入基因集的所有基因。p值的计算公式为:\ [P (X \ gt k) = \ \ limits_总和{我= k + 1} ^ n \压裂{{{K_b} \选择{我}}{{N_b-K_b} \选择{n}}} {{{N_b} \选择{n}}} \]折叠变化计算为:左(\[叠化= \ \压裂{k} {n} \右)/ \离开(\压裂{K_b} {N_b} \) \]在那里,\ (N_b \)是背景基因的总数，\ (K_b \)为背景基因中某个组织的组织特异性基因总数，n为输入基因集中的基因数，k为输入基因集中的组织特异性基因数。p值可以通过设置Benjamini & Hochberg修正来校正多个假设检验multiHypoCorrection = TRUE(这是真正的默认情况下)。如果没有提供背景基因集，所有的基因将被用作背景。

例子:组织特异性基因富集

本例使用从单细胞RNA-Seq分析中鉴定出的营养外胚层(TE)特异性基因，在植入前发育的第5、6和7天对人类囊胚进行分析(Petropoulos et al. 2016)．使用PCA将单个细胞分配到内细胞群(外胚层+新生胚外内胚层)或TE。之后，使用差异基因表达分析生成了100个te特异性基因的列表(Petropoulos et al. 2016)．我们使用这100个基因作为输入基因集，并使用HPA数据集定义的组织特异性基因进行组织特异性基因富集。

注意:输入基因集可以包含集成id (ENSEMBLIdentifier ())或基因符号(SymbolIdentifier ())(使用geneIdType输入GeneSet对象中的参数)。

图书馆(TissueEnrich)基因< -执行（“extdata”，“inputGenes.txt”，包=“TissueEnrich”）inputGenes < -扫描(基因,字符())gs < -GeneSet（geneIds =inputGenes,生物=“智人”，geneIdType =SymbolIdentifier())输出< -teEnrichment（inputGenes =gs)

的输出包含浓缩结果的列表对象。这些结果将在下一节中解释。

探索组织特异性基因富集结果

使用组织特异性基因富集条形图`ggplot2`

对象中的第一个对象输出List是一个SummarizedExperiment对象，其中包含\ (-Log_{10}(假定值)\)以及与输入基因集中组织特异性基因的数量相对应的折叠变化。该对象可用于可视化组织特异性基因富集的形式柱状图使用\ (-Log_{10}(假定值)\)值。

seEnrichmentOutput <与产出[[1]]enrichmentOutput < -setNames（data.frame（分析(seEnrichmentOutput),row.names =rowData(seEnrichmentOutput),1]),colData(seEnrichmentOutput),1]）enrichmentOutput＄组织< -row.names(enrichmentOutput)头(enrichmentOutput)组织。特异性。基因折叠。改变样品#>脂肪组织0.0000000 1 1.2394054#>肾上腺0.0000000#>附录1.0631035 4 4.4829558#>骨髓0.5552268 4 2.7907142#>乳房0.0000000#>大脑皮层0.0000000 3 0.4191623# >组织脂肪组织肾上腺#>附录#>骨髓骨髓#>乳房大脑皮层ggplot(enrichmentOutputaes（x =重新排序(组织、-Log10PValue),y =Log10PValue,标签=Tissue.Specific.Genes,填补=组织))+geom_bar（统计=“身份”）+实验室（x =”，y =log10 (P-Adjusted)”）+theme_bw（）+主题（legend.position =“没有”）+主题（情节。title =element_text（hjust =0．5，大小=20.)，轴。title =element_text（大小=15）)+主题（axis.text.x =element_text（角=45，vjust =1，hjust =1)，panel.grid.major =element_blank()，panel.grid.minor =element_blank())

在上图中，x轴表示每个组织，y轴表示组织特异性基因富集(\ (-Log_{10}(假定值)\))的值。正如预期的那样，100个te特异性基因显示胎盘特异性基因的富集。

该输出对象用于可视化组织特异性基因富集\ (-Log_{10}(假定值)\)值也可以用来绘制折叠变化值。

ggplot(enrichmentOutputaes（x =重新排序(组织、-fold.change),y =fold.change,标签=Tissue.Specific.Genes,填补=组织))+geom_bar（统计=“身份”）+实验室（x =”，y =“褶皱变化”）+theme_bw（）+主题（legend.position =“没有”）+主题（情节。title =element_text（hjust =0．5，大小=20.)，轴。title =element_text（大小=15）)+主题（axis.text.x =element_text（角=45，vjust =1，hjust =1)，panel.grid.major =element_blank()，panel.grid.minor =element_blank())

在上图中，x轴表示每个组织，y轴表示组织特异性基因富集的折叠变化值。

热图显示组织特异性基因的表达谱`ggplot2`

的第二个对象输出包含从输入基因集中识别的组织特异性基因的表达值的列表。表达式值可以以热图的形式显示出来。例如，下面的代码生成一个热图，显示胎盘特定基因在所有组织中的表达。

图书馆(tidyr)seExp <与产出[[2]] [[“胎盘”]]exp < -setNames（data.frame（分析(seExp),row.names =rowData(seExp),1]),colData(seExp),1]）经验值＄基因< -row.names(实验)exp <实验% > %收集（关键=“组织”，值=“表情”，1：（ncol(实验)-1）)ggplot(经验值,aes(组织、基因))+geom_tile（aes（填补=表达),颜色=“白色”）+scale_fill_gradient（低=“白色”，高=“钢蓝色的”）+实验室（x =”，y =”）+theme_bw（）+指南（填补=guide_legend（title =“Log2 (TPM)”）)+# (legend.position =“没有”)+主题主题（情节。title =element_text（hjust =0．5，大小=20.)，轴。title =element_text（大小=15）)+主题（axis.text.x =element_text（角=45，vjust =1，hjust =1)，panel.grid.major =element_blank()，panel.grid.minor =element_blank())

检索输入组织特异性基因

的第三个对象输出包含输入基因的组织特异性信息的列表。下面的代码检索组织特异性基因以及胎盘组织中的组织特异性类型。

seGroupInf <与产出[[3.]] [[“胎盘”]]groupInf < -data.frame（分析(seGroupInf))打印（头(groupInf))#>基因组1 CGA组织富集#> 2 GCM1组织富集CYP19A1组织富集#> 4 GPR32组织富集5 CLEC1A组织富集6 SLC13A4组织富集

无法定位的组织特异性基因的检索

的第四个对象输出List是一个字符向量，它具有在组织特异性基因数据中未识别的输入基因列表。

打印（geneIds(输出[[4]]))#>[1]“c10orf54”“cgb”“gramd3”“pvrl4”

同源基因富集

的teEnrichmentFunction可以从人类基因列表中计算小鼠组织特异性基因富集，反之亦然。用户只需指定输入数据是来自小鼠还是人类，并选择感兴趣的组织特定基因数据，无论是来自小鼠还是人类。该功能将使用人与小鼠之间一对一的蛋白质编码同源基因自动进行同源组织特异性基因富集，从Ensembl V91数据库下载(Aken et al. 2016)．

示例:使用输入的人类基因对小鼠组织进行组织特异性基因富集

在本例中，列出了100个te特异性基因组织特异性基因富集例使用小鼠ENCODE数据进行组织特异性基因富集。

图书馆(TissueEnrich)图书馆(ggplot2)基因< -执行（“extdata”，“inputGenes.txt”，包=“TissueEnrich”）inputGenes < -扫描(基因,字符())gs < -GeneSet（geneIds =inputGenes,生物=“智人”，geneIdType =SymbolIdentifier())输出< -teEnrichment（inputGenes =gs,rnaSeqDataset =3.）seEnrichmentOutput <与产出[[1]]enrichmentOutput < -setNames（data.frame（分析(seEnrichmentOutput),row.names =rowData(seEnrichmentOutput),1]),colData(seEnrichmentOutput),1]）enrichmentOutput＄组织< -row.names(enrichmentOutput)ggplot(enrichmentOutputaes（x =重新排序(组织、-Log10PValue),y =Log10PValue,标签=Tissue.Specific.Genes,填补=组织))+geom_bar（统计=“身份”）+实验室（x =”，y =log10 (P-Adjusted)”）+theme_bw（）+主题（legend.position =“没有”）+主题（情节。title =element_text（hjust =0．5，大小=20.)，轴。title =element_text（大小=15）)+主题（axis.text.x =element_text（角=45，vjust =1，hjust =1)，panel.grid.major =element_blank()，panel.grid.minor =element_blank())

这一结果表明，人te特异性基因也显示小鼠胎盘特异性基因的富集。

`teGeneRetrieval`:组织特异性基因鉴定

的teGeneRetrieval函数用于定义组织特异性基因，使用来自HPA的算法(Uhlén et al. 2015)．它需要一个SummarizedExperiment对象，其中包含作为输入的表达信息(行为基因，列为组织)，并将基因分类为不同的基因组，并在另一个基因组中返回信息SummarizedExperiment对象。用户还可以选择改变默认阈值，以改变基因的组织特异性程度。关于基因组和HPA阈值的更多细节如下所示。

基因组织

这些基因根据它们在组织中的基因表达被分为六组。这些群体是:

不表示:所有组织中表达水平小于1的基因(TPM或FPKM)。
组织丰富:表达水平大于或等于1的基因(TPM或FPKM)，与所有其他组织相比，在特定组织中表达水平至少高5倍。
集团丰富:表达水平大于或等于1的基因(TPM或FPKM)，与所有其他组织相比，在2-7组组织中表达水平至少高5倍，并且不被认为是组织富集的。
组织改进:表达水平大于或等于1的基因(TPM或FPKM)，在特定组织中的表达水平比所有其他组织中的平均水平至少高5倍，并且不被认为是组织富集或群富集。
表示为:在所有组织中表达水平大于或等于1的基因(TPM或FPKM)，不属于上述4组中的任何一组。
混合:不属于上述5个类群的基因。

基因来自组织丰富，集团丰富,组织增强群被分类为组织特异性基因。

例如:组织特异性基因检索

在下面的例子中，我们提供了小鼠ENCODE数据的子集，包括17个组织中36个基因的表达数据。

图书馆(TissueEnrich)图书馆(SummarizedExperiment)数据< -执行（“extdata”，“test.expressiondata.txt”，包=“TissueEnrich”）expressionData < -read.table(数据、头=真正的，row.names =1，9月=＇\ t＇）se < -SummarizedExperiment（化验=SimpleList（as.matrix(expressionData)),rowData =row.names(expressionData),colData =colnames(expressionData))输出< -teGeneRetrieval(se)头（分析(输出)#>基因组织组#> [1，] "ENSMUSG00000003200" "所有" "所有表达"#> [2，] "ENSMUSG00000003206" "骨头。骨髓Tissue-Enhanced”#> [3，] "ENSMUSG00000003208" "所有" "混合"#> [4，] "ENSMUSG00000004530" "All" " expression - in -All"#> [5，] "ENSMUSG00000004535" "All" " expression - in -All"#> [6，] " ensmusg00000004540 " " e14.5 . #> [6，] " ensmusg00000004540 "胎盘Tissue-Enriched”

如上所示，输出由a中的组织特异性基因信息组成SummarizedExperiment对象，其中列为基因名称、组织名称和组织特定组。

`teEnrichmentCustom`:自定义表达数据集中的组织特异性基因富集

的teEnrichmentCustom功能是用来计算组织特异性基因富集使用组织特异性基因定义使用teGeneRetrieval函数。

示例:自定义数据集中组织特异性基因富集

这个例子使用了10个基因，从36个基因中随机选择组织特异性基因检索的例子。从自定义基因表达中识别的组织特异性基因用于计算输入基因集中的组织特异性基因富集。

图书馆(TissueEnrich)图书馆(ggplot2)基因< -执行（“extdata”，“inputGenesEnsembl.txt”，包=“TissueEnrich”）inputGenes < -扫描(基因,字符())gs < -GeneSet（geneIds =inputGenes)output2 < -teEnrichmentCustom(gs、输出)enrichmentOutput < -setNames（data.frame（分析(output2 [[1]]),row.names =rowData(output2 [[1[]]),1]),colData(output2 [[1[]]),1]）ggplot(enrichmentOutputaes（x =重新排序(组织、-Log10PValue),y =Log10PValue,标签=Tissue.Specific.Genes,填补=组织))+geom_bar（统计=“身份”）+实验室（x =”，y =log10 (P-Adjusted)”）+theme_bw（）+主题（legend.position =“没有”）+主题（情节。title =element_text（hjust =0．5，大小=20.)，轴。title =element_text（大小=15）)+主题（axis.text.x =element_text（角=45，vjust =1，hjust =1)，panel.grid.major =element_blank()，panel.grid.minor =element_blank())

如上所示，输出的元数据由包含富集结果的列表对象中的特定组织的基因富集信息组成。

参考文献

Aken, Bronwen L, Sarah Ayling, Daniel Barrell, Laura Clarke, Valery Curwen, Susan Fairley, Julio Fernandez Banet等。2016。“Ensembl基因注释系统。”数据库:生物数据库和管理杂志2016.牛津大学出版社。https://doi.org/10.1093/database/baw093．

阿德利，克里斯汀·G，大卫·s·德卢卡，阿耶莱特·V. Segrè，蒂莫西·j·沙利文，泰勒·r·杨，艾伦·t·盖尔凡德，卡桑德拉·a·特罗布里奇等。2015。基因型-组织表达(Gtex)先导分析:人类多组织基因调控科学348(6235)。美国科学促进会:648-60。https://doi.org/10.1126/science.1262110．

Petropoulos, Sophie, Daniel Edsgärd, Björn Reinius，邓巧林，Sarita Pauliina Panula, Simone Codeluppi, Alvaro Plaza Reyes, Sten Linnarsson, Rickard Sandberg和Fredrik Lanner。2016。“单细胞RNA-Seq揭示了人类植入前胚胎的谱系和X染色体动态。”细胞35 (4). Elsevier: 344 - 344。https://doi.org/10.1016/j.cell.2016.03.023．

Shen, Yin, Feng Yue, David F. McCleary, Zhen Ye, Lee Edsall, Samantha Kuan, Ulrich Wagner等。2012。“老鼠基因组中顺式调控序列的地图。”自然448(7409)。http://www.nature.com/articles/nature11243．

Uhlén, Mathias, Linn Fagerberg, Björn M. Hallström, Cecilia Lindskog, Per Oksvold, Adil Mardinoglu, Asa Sivertsson，等。2015。"基于组织的人类蛋白质组图谱"科学347(6220)。美国科学促进会。https://doi.org/10.1126/science.1260419．

tissueenrichment:计算组织特异性基因富集的工具

Ashish Jain, Geetu Tuteja
生物信息学与计算生物学
遗传学，发育和细胞生物学
爱荷华州立大学，艾姆斯，爱荷华

04/27/2020

TissueEnrich

如何获得组织充实的帮助

`teEnrichment`:利用人或小鼠基因进行组织特异性基因富集

RNA-Seq数据集

定义组织特异性基因

超几何检验

背景基因

例子:组织特异性基因富集

探索组织特异性基因富集结果

使用组织特异性基因富集条形图`ggplot2`

热图显示组织特异性基因的表达谱`ggplot2`

检索输入组织特异性基因

无法定位的组织特异性基因的检索

同源基因富集

示例:使用输入的人类基因对小鼠组织进行组织特异性基因富集

`teGeneRetrieval`:组织特异性基因鉴定

基因组织

例如:组织特异性基因检索

`teEnrichmentCustom`:自定义表达数据集中的组织特异性基因富集

示例:自定义数据集中组织特异性基因富集

参考文献

tissueenrichment:计算组织特异性基因富集的工具

Ashish Jain, Geetu Tuteja生物信息学与计算生物学遗传学，发育和细胞生物学爱荷华州立大学，艾姆斯，爱荷华

04/27/2020

TissueEnrich

如何获得组织充实的帮助

teEnrichment:利用人或小鼠基因进行组织特异性基因富集

RNA-Seq数据集

定义组织特异性基因

超几何检验

背景基因

例子:组织特异性基因富集

探索组织特异性基因富集结果

使用组织特异性基因富集条形图ggplot2

热图显示组织特异性基因的表达谱ggplot2

检索输入组织特异性基因

无法定位的组织特异性基因的检索

同源基因富集

示例:使用输入的人类基因对小鼠组织进行组织特异性基因富集

teGeneRetrieval:组织特异性基因鉴定

基因组织

例如:组织特异性基因检索

teEnrichmentCustom:自定义表达数据集中的组织特异性基因富集

示例:自定义数据集中组织特异性基因富集

参考文献

Ashish Jain, Geetu Tuteja
生物信息学与计算生物学
遗传学，发育和细胞生物学
爱荷华州立大学，艾姆斯，爱荷华

`teEnrichment`:利用人或小鼠基因进行组织特异性基因富集

使用组织特异性基因富集条形图`ggplot2`

热图显示组织特异性基因的表达谱`ggplot2`

`teGeneRetrieval`:组织特异性基因鉴定

`teEnrichmentCustom`:自定义表达数据集中的组织特异性基因富集