TissueEnrich

TissueEnrich包用于计算组织特异性基因在一组输入基因中的富集。例如,用户可以从RNA-Seq数据中输入最高表达的基因,或者基因共表达模块,以确定哪些组织特异性基因在这些数据集中得到丰富。通过处理来自人类蛋白质图谱(HPA)的RNA-Seq数据来定义组织特异性基因。(Uhlén et al. 2015), GTEx(Ardlie et al. 2015),和鼠标ENCODE(Shen et al. 2012)使用HPA的算法(Uhlén et al. 2015).超几何测试被用于确定组织特异性基因是否在输入基因中富集。随着组织特异性基因的富集TissueEnrich包还可用于从用户提供的表达数据集中定义组织特异性基因,然后可用于计算组织特异性基因富集。TissueEnrich具有以下三个功能。

注意:如果你在发表的研究中使用了tissueenrichment,请引用:

Jain, A, Tuteja, G. (2018) tissueenrichment:组织特异性基因富集分析。生物信息学bty89010.1093 /生物信息学/ bty890

如何获得组织充实的帮助

请将所有与tissueenrichment包有关的问题或疑问张贴在Bioconductor支持网站.这将帮助我们建立一个可供其他用户使用的信息库。

https://support.bioconductor.org

将您的问题直接通过电子邮件发送给软件包的作者。

teEnrichment:利用人或小鼠基因进行组织特异性基因富集

teEnrichment函数用于计算输入基因集中组织特异性基因的富集。它使用组织特异性基因,通过处理来自人类和小鼠的RNA-Seq数据集定义。用户必须指定使用生物(" Homo Sapiens "(默认值)或" Mus Musculus ")参数输入GeneSet对象。关于RNA-Seq数据集和组织特异性基因的更多细节将在下一节中讨论。

RNA-Seq数据集

TissueEnrich使用来自HPA, GTEx和小鼠ENCODE的RNA-Seq数据定义组织特异性基因。为了使组织特异性基因计算更可靠,我们只使用了有≥2个生物重复的组织。该工具中使用的数据集是:

  • 下丘脑-垂体-肾上腺轴的数据集:35个人体组织的RNA-Seq数据(Uhlén et al. 2015)
  • GTEx数据集:29个人体组织的RNA-Seq数据(Ardlie et al. 2015)
  • 鼠标编码数据集:17个小鼠组织的RNA-Seq数据(Shen et al. 2012)

当使用teEnrichment,用户可指定RNA-Seq数据集(rnaSeqDataset)用于组织特异性基因富集分析。

  • 1为“Human Protein Atlas”(默认)
  • 2代表“GTEx”
  • 3“鼠标编码”

注意:从胚胎阶段分离出来的组织以“E”开头,后面跟着时间点。例如,在小鼠ENCODE数据中,从胚胎第14.5天分离出来的胎盘组织被命名为e14.5 -胎盘。所有其他组织都是与成虫分离的。

定义组织特异性基因

使用来自HPA的算法定义组织特异性基因(Uhlén et al. 2015),可分为以下几类:

  • 组织丰富:表达水平大于1的基因(TPM或FPKM),与所有其他组织相比,在特定组织中表达水平至少高5倍。
  • 集团丰富:表达水平大于1的基因(TPM或FPKM),在2-7组组织中表达水平比所有其他组织高至少5倍,并且不被认为是组织富集的。
  • 组织改进:表达水平大于1的基因(TPM或FPKM),在特定组织中的表达水平比所有其他组织中的平均水平至少高5倍,并且不被认为是组织富集或群体富集。

teEnrichment,用户可指定特定组织基因的类型(tissueSpecificGeneType)用于组织特异性基因富集分析。

  • 1表示“All”(默认)
  • 2为“组织丰富”
  • 3 .“组织强化”
  • 4 .“团体充实”

超几何检验

超几何检验用于计算组织特异性基因富集。p值的计算公式为:

\ [P (X \ gt k) = \ \ limits_总和{我= k + 1} ^ n \压裂{{{k} \选择{我}}{{n - k} \选择{n}}} {{{n} \选择{n}}} \]折叠变化计算为:左(\[叠化= \ \压裂{k} {n} \右)/ \离开(\压裂{k} {n} \) \]

式中,N为基因总数,K为某组织的组织特异性基因总数,N为输入基因集中的基因数,K为输入基因集中的组织特异性基因数。p值可以通过设置Benjamini & Hochberg修正来校正多个假设检验multiHypoCorrection = TRUE(这是真正的默认情况下)。

背景基因

tissueenrichment现在使用户能够提供背景基因进行组织特异性基因富集。在这种情况下,不是使用数据集中的所有基因,而是使用背景基因集来进行富集分析。需要注意的是,背景基因集必须包含输入基因集的所有基因。p值的计算公式为:\ [P (X \ gt k) = \ \ limits_总和{我= k + 1} ^ n \压裂{{{K_b} \选择{我}}{{N_b-K_b} \选择{n}}} {{{N_b} \选择{n}}} \]折叠变化计算为:左(\[叠化= \ \压裂{k} {n} \右)/ \离开(\压裂{K_b} {N_b} \) \]在那里,\ (N_b \)是背景基因的总数,\ (K_b \)为背景基因中某个组织的组织特异性基因总数,n为输入基因集中的基因数,k为输入基因集中的组织特异性基因数。p值可以通过设置Benjamini & Hochberg修正来校正多个假设检验multiHypoCorrection = TRUE(这是真正的默认情况下)。如果没有提供背景基因集,所有的基因将被用作背景。

例子:组织特异性基因富集

本例使用从单细胞RNA-Seq分析中鉴定出的营养外胚层(TE)特异性基因,在植入前发育的第5、6和7天对人类囊胚进行分析(Petropoulos et al. 2016).使用PCA将单个细胞分配到内细胞群(外胚层+新生胚外内胚层)或TE。之后,使用差异基因表达分析生成了100个te特异性基因的列表(Petropoulos et al. 2016).我们使用这100个基因作为输入基因集,并使用HPA数据集定义的组织特异性基因进行组织特异性基因富集。

注意:输入基因集可以包含集成id (ENSEMBLIdentifier ())或基因符号(SymbolIdentifier ())(使用geneIdType输入GeneSet对象中的参数)。

输出包含浓缩结果的列表对象。这些结果将在下一节中解释。

探索组织特异性基因富集结果

使用组织特异性基因富集条形图ggplot2

对象中的第一个对象输出List是一个SummarizedExperiment对象,其中包含\ (-Log_{10}(假定值)\)以及与输入基因集中组织特异性基因的数量相对应的折叠变化。该对象可用于可视化组织特异性基因富集的形式柱状图使用\ (-Log_{10}(假定值)\)值。

在上图中,x轴表示每个组织,y轴表示组织特异性基因富集(\ (-Log_{10}(假定值)\))的值。正如预期的那样,100个te特异性基因显示胎盘特异性基因的富集。

该输出对象用于可视化组织特异性基因富集\ (-Log_{10}(假定值)\)值也可以用来绘制折叠变化值。

在上图中,x轴表示每个组织,y轴表示组织特异性基因富集的折叠变化值。

检索输入组织特异性基因

的第三个对象输出包含输入基因的组织特异性信息的列表。下面的代码检索组织特异性基因以及胎盘组织中的组织特异性类型。

无法定位的组织特异性基因的检索

的第四个对象输出List是一个字符向量,它具有在组织特异性基因数据中未识别的输入基因列表。

同源基因富集

teEnrichmentFunction可以从人类基因列表中计算小鼠组织特异性基因富集,反之亦然。用户只需指定输入数据是来自小鼠还是人类,并选择感兴趣的组织特定基因数据,无论是来自小鼠还是人类。该功能将使用人与小鼠之间一对一的蛋白质编码同源基因自动进行同源组织特异性基因富集,从Ensembl V91数据库下载(Aken et al. 2016)

teGeneRetrieval:组织特异性基因鉴定

teGeneRetrieval函数用于定义组织特异性基因,使用来自HPA的算法(Uhlén et al. 2015).它需要一个SummarizedExperiment对象,其中包含作为输入的表达信息(行为基因,列为组织),并将基因分类为不同的基因组,并在另一个基因组中返回信息SummarizedExperiment对象。用户还可以选择改变默认阈值,以改变基因的组织特异性程度。关于基因组和HPA阈值的更多细节如下所示。

基因组织

这些基因根据它们在组织中的基因表达被分为六组。这些群体是:

  • 不表示:所有组织中表达水平小于1的基因(TPM或FPKM)。
  • 组织丰富:表达水平大于或等于1的基因(TPM或FPKM),与所有其他组织相比,在特定组织中表达水平至少高5倍。
  • 集团丰富:表达水平大于或等于1的基因(TPM或FPKM),与所有其他组织相比,在2-7组组织中表达水平至少高5倍,并且不被认为是组织富集的。
  • 组织改进:表达水平大于或等于1的基因(TPM或FPKM),在特定组织中的表达水平比所有其他组织中的平均水平至少高5倍,并且不被认为是组织富集或群富集。
  • 表示为:在所有组织中表达水平大于或等于1的基因(TPM或FPKM),不属于上述4组中的任何一组。
  • 混合:不属于上述5个类群的基因。

基因来自组织丰富集团丰富,组织增强群被分类为组织特异性基因。

teEnrichmentCustom:自定义表达数据集中的组织特异性基因富集

teEnrichmentCustom功能是用来计算组织特异性基因富集使用组织特异性基因定义使用teGeneRetrieval函数。

参考文献

Aken, Bronwen L, Sarah Ayling, Daniel Barrell, Laura Clarke, Valery Curwen, Susan Fairley, Julio Fernandez Banet等。2016。“Ensembl基因注释系统。”数据库:生物数据库和管理杂志2016.牛津大学出版社。https://doi.org/10.1093/database/baw093

阿德利,克里斯汀·G,大卫·s·德卢卡,阿耶莱特·V. Segrè,蒂莫西·j·沙利文,泰勒·r·杨,艾伦·t·盖尔凡德,卡桑德拉·a·特罗布里奇等。2015。基因型-组织表达(Gtex)先导分析:人类多组织基因调控科学348(6235)。美国科学促进会:648-60。https://doi.org/10.1126/science.1262110

Petropoulos, Sophie, Daniel Edsgärd, Björn Reinius,邓巧林,Sarita Pauliina Panula, Simone Codeluppi, Alvaro Plaza Reyes, Sten Linnarsson, Rickard Sandberg和Fredrik Lanner。2016。“单细胞RNA-Seq揭示了人类植入前胚胎的谱系和X染色体动态。”细胞35 (4). Elsevier: 344 - 344。https://doi.org/10.1016/j.cell.2016.03.023

Shen, Yin, Feng Yue, David F. McCleary, Zhen Ye, Lee Edsall, Samantha Kuan, Ulrich Wagner等。2012。“老鼠基因组中顺式调控序列的地图。”自然448(7409)。http://www.nature.com/articles/nature11243

Uhlén, Mathias, Linn Fagerberg, Björn M. Hallström, Cecilia Lindskog, Per Oksvold, Adil Mardinoglu, Asa Sivertsson,等。2015。"基于组织的人类蛋白质组图谱"科学347(6220)。美国科学促进会。https://doi.org/10.1126/science.1260419