CoRegNet:联合监管网络的重建与综合分析

Remy Nicolle, Francois Radvanyi和Mohamed Elati

2015年3月

这个小插图伴随着CoRegNet包中。它既可以用于获取关于方法的一些附加信息,也可以用于获取函数的使用示例。请随意向包维护者询问任何问题(remy.c。Nicolle at gmaildot.com)。

简介

CoRegNetPackage旨在从转录组数据推断出一个大规模的转录共调节网络,并整合基因调控的外部数据来推断和分析转录程序。包中提出的网络推理算法的特殊性在于学习协同调控网络,通过转录因子协同作用来模拟基因调控,协同调控靶基因。

该软件包用于膀胱癌的研究,从一组183个样本中识别司机转录程序。在整个Vignette中,转录组数据集的一个较小版本被用来说明包的使用。

图书馆(CoRegNet)数据(HumanTF CIT_BLCA_EXP CIT_BLCA_Subgroup)昏暗的(CIT_BLCA_EXP)#显示基因表达数据集中的6个第一个TF相交rownames(HumanTF CIT_BLCA_EXP)))

快速用户指南

的主要功能CoRegNet

  1. 从基因表达数据重构一个大规模的调控网络

    入库单=hLICORN(CIT_BLCA_EXPTFlist =HumanTF)
  2. 推断转录因子活性

    影响=regulatorInfluence(入库单,CIT_BLCA_EXP)
  3. 检索推断的co-coregulator

    coregs =coregulators(入库单)
  4. 使用交互式显示器分析合作监管机构的网络

    显示(入库单、CIT_BLCA_EXP影响力,clinicalData =CIT_BLCA_Subgroup)

基于基因表达数据的大规模协同调控网络构建

包中实现的推理算法是LICORN算法的混合版本。它是基于基因表达数据的离散和连续版本。网络重构包括4个步骤。首先,对基因表达数据进行离散化。其次,利用模型提取了所有潜在的合作规制集先验的频繁项集挖掘算法。第三,为每个基因确定助激活剂和助抑制剂的最佳组合。最后,使用具有相互作用项的线性回归方法建立连续调控模型,对每个基因的局部基因调控网络进行评分。

最小输入数据集为:

#一个如何推断共同监管网络的例子入库单=hLICORN(CIT_BLCA_EXPTFlist =HumanTF)打印(入库单)

缺省情况下,转录组数据集使用discretizeExpressionData函数。该函数可用于在有或没有一组参考样本的情况下离散基因表达数据,例如在研究疾病的情况下使用健康样本。在这两种情况下,基因的表达要么集中于没有提供参考样本时所有样本的平均表达,要么集中于参考样本集的平均值。请注意,该表达式并没有缩放以获得单位标准差。一般来说,即使有参考样本,将基因表达集中在所有实验的平均值上表现良好,特别是在大型数据集上。然后,当表达式值超过给定阈值时将其设置为+1,当表达式值低于给定阈值时将其设置为-1,否则将其设置为0。阈值的选择要么是用户定义的,要么是基于数据集的整体分布计算的。

而且,任何离散化的数据都可以用作输入,只要离散化的矩阵具有与连续表达式数据相似的维数和维名。例如,可以对每个基因进行混合高斯拟合,以识别给定基因过表达、低表达或不变的样本。

#默认的离散化。#使用整个数据集的标准差来设置阈值。disc1 =discretizeExpressionData(CIT_BLCA_EXP)表格(disc1)箱线图as.matrix(CIT_BLCA_EXP)disc1)使用硬阈值进行离散化disc2 =discretizeExpressionData(CIT_BLCA_EXP阈值=1表格(disc2)箱线图as.matrix(CIT_BLCA_EXP)disc2)这里有更多的例子帮助(discretizeExpressionData)

整个推理过程是高度并行的,因为它可以独立地在每个目标基因上启动,因此可以分为尽可能多的线程,有多少基因可以推断调节器。默认情况下hLICORN函数使用mclapply的功能平行包(R >= 3.0中的默认值),它本身默认使用2个核。

#只对基质中的第200个基因进行快速分析#尽可能选择分成4个线程选项“mc.cores”4入库单=hLICORN(CIT_BLCA_EXP200),TFlist =HumanTF)打印(入库单)选项“mc.cores”2入库单=hLICORN(CIT_BLCA_EXP200),TFlist =HumanTF)打印(入库单)

虽然hLICORN是一种推理算法,它在识别协同调节器方面特别有效,如。合作转录因子,该包允许输入由其他方法推断或由高通量生物学实验定义的调控网络,用于其余的分析。

精炼推断的监管网络

分析的第二步使用外部知识来丰富推断的监管网络。可以使用两种类型的外部数据:调控信息,如转录因子结合位点(Transcription Factor Binding Sites, TFBS)或ChIP数据,以支持TF与基因的相互作用;共调控信息,如蛋白质-蛋白质相互作用,以支持协同TF。这些数据集可以很容易地集成在一个coregnet对象使用两个函数:addEvidences而且addCooperativeEvidences

#来自CHEA数据库的ChIP数据数据(CHEA_sub)# ENCODE项目的芯片数据数据(ENCODE_sub)#蛋白质之间的相互作用TF来自HIPPIE数据库数据(HIPPIE_sub)#蛋白质之间的相互作用TF从STRING数据库数据(STRING_sub)enrichedGRN =addEvidences(入库单、CHEA_sub ENCODE_sub)enrichedGRN =addCooperativeEvidences(HIPPIE_sub enrichedGRN STRING_sub)

coregnet对象的附加证据包含了对验证外部证据中推断的相互作用的丰富的统计分析,使用如下所示的fisher精确检验。

打印(enrichedGRN)

添加的证据可以用来细化推断网络,选择局部基因调控网络。这是基于的工作modEncode该联盟提出了一种方法来整合正交数据集(转录组,表观遗传标记,结合位点,…),以学习一个全球网络。简单地说,对于每个数据集,该方法为所有可能的交互分配一个分数。每次交互的最终得分合并了每个单独的数据集得分,以选择最佳的监管交互。在这里,该方法不是评分和选择单个边,而是扩展到局部调控网络(给定基因的共激活子和共抑制剂组)。对于每个数据集,通过计算在本地网络中发现的经过验证的交互数量(由交互总数规范化),为每个本地网络分配一个分数。由网络推理方法给出的分数,在调整R2的情况下hLICORN,然后将外部数据集给出的每个分数进行合并。提出了两种方法modEncode财团这样做。默认的方法是无监督方法,这是一个简单的未加权平均值,modENCODE联盟展示了该方法可以给出最好的结果。监督方法使用用户定义的参考数据集作为交互的参考集。然后使用广义线性模型根据其他数据集的得分(包括网络推理得分)来预测参考交互的存在。

默认的无监督细化方法refinedGRN =完善(enrichedGRN)打印(refinedGRN)使用CHEA芯片数据进行监督优化的示例refinedGRN =完善(enrichedGRN集成=“监督”referenceEvidence =“CHEA_sub”打印(refinedGRN)

注意::可以使用其他网络推理方法的结果,并将其集成到一个coregnet网络客体作为外部规制证据。然而,当使用含有合作调控因子的网络而不是简单的TF来对基因相互作用对时,协同调控证据的整合是相关的。

活性转录程序的鉴定

我们的目标CoRegNet包是识别给定样本或样本集中主动协同TF的集合。一种转录活性的测量方法被开发出来,以估计给定样本中给定转录调节因子的活性水平。这个测量影响,是转录网络中TF激活基因和抑制基因表达的比较。它是基于一个样本中这两组基因的差异(韦尔奇t统计)的度量。基本上,如果TF激活的基因高表达,而被抑制的基因低表达,则TF具有较高的影响。使用编码在a中的协调节网络coregnet
对象和基因表达矩阵,无论是用于推断的数据还是另一个数据(例如细胞系转录组)。输出的是一个矩阵,其列数(样本)和行数(TF)与转录网络中具有足够数量的靶标(激活最少10个,抑制最少10个)的TF相同。

CITinf =regulatorInfluence(入库单,CIT_BLCA_EXP)

这个新的转录影响数据集可以用作整个转录组数据集的浓缩视图。数据挖掘和机器学习算法可用于识别聚类、预测样本类或提取相关特征。更有趣的是,它可以用更少的特征来可视化整个数据集。该软件包提出了一个基于交互式闪亮网页的可视化工具。嵌入式可视化工具的目标是使用合作转录因子网络导航转录程序,并识别由感兴趣的亚组定义的一个或一组样本的特定转录程序。

转录程序分析的初步工作是识别这些程序背后的共同调节网络。一对协同TF或共同调节因子的定义取决于构建网络的方法,即它是否包含简单的调节对(TF -> Gene,例如使用ARACNE算法推断)或一组协同TF调节每个基因({TF1, TF2,…}-> Gene,使用hLICORN嵌入在包中的算法)。从对调控网络来看,所有至少共享一个靶基因的TF组合都被认为是一对潜在的共同调控基因对。从合作网络中,这些被定义为所有的TF对,被推断在至少一个靶基因的调控中是合作的。然后,使用fisher精确检验(fisher’s exact test)对这些TF对的显著性进行检验,以评估这些TF对是否偶然共享比预期更多的靶基因(应用Benjamini-Hochberg多重检验校正)。最终的共同调节网络由所有显著TF对(FDR 1%)之间的一条边定义。

# hLICORN推断网络的协调节器coregulators(入库单))

为了举例说明所提出的分析工具的使用,可以通过包获得额外的数据:我们的样本分类(基于TCGA分类)和CIT队列中转录因子的拷贝数状态。

数据(CIT_BLCA_CNV)数据(CIT_BLCA_Subgroup)

启动可视化工具的最低要求是coregnet网络对象和转录组数据集。还可以添加影响数据集以加速网页的初始化,但否则将重新计算,因此是可选的。

显示(入库单,expressionData =CIT_BLCA_EXP,组织=CITinf)

闪亮应用程序的左上方部分用于更改应用程序的几个参数。

只有当样本分类可用时,第一个选择输入才可用。当选择特定的子组时,表示TF的节点将根据所选样本集中它们的平均活动水平调整它们的颜色。如果有修改数据,则每个节点内的饼图将被修改,以显示每个副本数状态在所选样本集中的比例。

第二个输入指定一个整数作为阈值,以选择共享最少数量的靶基因(局部调控网络)的TF对hLICORN推断网络)。该参数控制显示的tf数量和tf对。

第三个输入可用于搜索网络中的TF。

布局按钮可以改变网络的布局。对于大型网络来说,这可能是一个漫长的过程。

底部面板用于显示特定的图形。默认显示TF影响热图。如果在细胞屏面板中只选择了TF的一个子集,则热图将只显示所选TF的影响。选择单个TF将显示特定于该TF的数据,这取决于用作输入的数据。每个数据都表示为按所选TF的活动排序的颜色数组。绘制的数据包括TF的表达,TF的活性以及激活和抑制样品的表达。

可视化工具还可以处理改造数据、样品分类和调控或共同调控证据。下面展示了几个例子。

#可视化网络中额外的监管或共同监管证据显示(enrichedGRNexpressionData =CIT_BLCA_EXP,组织=CITinf)#使用命名因子可视化样本分类显示(入库单,expressionData =CIT_BLCA_EXP,组织=CITinf,clinicalData =CIT_BLCA_Subgroup)#可视化调整器的拷贝数更改数据(CIT_BLCA_CNV)显示(入库单,expressionData =CIT_BLCA_EXP,组织=CITinf,clinicalData =CIT_BLCA_Subgroup,alterationData =CIT_BLCA_CNV)

注意:: Cytoscape网络快照是实验性的,通常会延迟一个快照。通常,在快照选项卡上来回切换一两次就可以获得最新的快照。希望Cytoscape.JS团队能够纠正这一点。


快照和示例

下面包含了一个闪亮的交互式用户界面的快照,用于共同调节网络驱动膀胱癌的可视化。

Co-regulation页面分为三个部分(见图1)。在左上角,控制面板列出了要分析的样本和样本子类型,选择重要合作交互的最小GRN数量,以及搜索网络中特定TF的输入。在右侧,交互式Cytoscape javascript小部件显示了共同调节器的网络。淋巴结的颜色反映了所选亚型中TF的活性,如图2和3所示的两种膀胱癌。页面的底部包含一个对网络上执行的动作做出反应的图。

图1:闪亮Web页面的视图

子类型特异性共调节网络。每个TF/节点的颜色基于该子类型的所有样本中的平均影响

图2:基底样膀胱癌共同调节网络

图3:发光样膀胱癌共同调节网络

当在Cytoscape小部件中未选择任何节点时,将显示TF影响的热图(如图1所示)。当选择多个节点时,热图将仅包含所选TF的影响。选择单个TF将为作为应用程序输入的每种类型的信息显示多层热图。图4显示了一个示例。第一个热图用颜色标记样本分类。第二个显示选择TF的Copy Number状态。第三和第四显示了所选TF的影响和表达值。最后,第五热图和第六热图分别显示了激活基因和抑制基因的表达。

图4:局部TF相关热图。表达式是由绿色到红色(从低到高)的颜色编码,以及由蓝色到红色(从低到高)的影响。热图每列显示一个样品。

最后,当额外的调控证据被整合到网络中时,除了推断出的共同调控相互作用外,Cytoscape网络还会显示这些相互作用,如图5所示。规范性证据将显示为TF之间的有向边,而合作性证据将显示为无向边。

图5:多种类型的交互。灰色:预测的合作互动。绿色:来自ENCODE ChIP-seq数据的监管交互作用。紫色:来自CHEA2 ChIP数据的监管相互作用。红色:来自STRING数据库的蛋白质相互作用。