内容

1fCI概论

1.1作者和Affliations

Shaojun Tang1,马丁•Hemberg2·Cansizoglu3, Stephane Belin3 Kenneth Kosik4 Gabriel Kreiman2汉诺Steen1 # +,朱迪思Steen3 # +

1部门病理学、波士顿儿童医院和哈佛医学院波士顿,MA,美国,02115

2眼科学系,波士顿儿童医院,波士顿,MA,美国,02115

3 f.m。Kirby神经生物学中心、儿童医院和神经学部门,哈佛医学院,300年洛伍德大道,波士顿,MA,美国,02115

4神经科学研究所,加州大学圣芭芭拉分校圣芭芭拉分校,美国,93106”

1.2文摘

“集成“组学”(即的能力。转录组和蛋白质组学)理解监管机制正变得越来越重要。目前没有可用的工具来识别差异表达基因在不同的“组学”(度)数据类型或多维数据包括时间的课程。我们提出一个模型能够同时识别度从连续和离散转录组、蛋白质组学和集成proteogenomic数据。我们表明,我们的算法可以使用多个不同的数据集,可以明确地找到基因显示功能的调制,或misregulation发展变化。我们的模型应用到时间进程proteogenomics数据集,我们确定了一些重要的基因显示独特的监管模式。

1.3介绍

fCI (f-divergence截止指数),识别度的分布计算的区别fold-changes control-control和剩余(non-differential)病例对照基因表达率数据。作为一个零假设,我们假定控制样本,不管数据类型,不包含度,控制数据反映了生物的传播和技术差异数据。相比之下,案例样本包含一个未知数量的度。删除度non-differentially案例数据的叶子一组的表达基因的分布控制样品是一样的。我们的方法,f-divergence断路器指数(fCI)识别度通过计算之间的区别的分布fold-changes control-control数据和剩余(non-differential)病例对照基因表达率数据(见图1. a - b)基因的去除与大褶皱的变化

fCI工作流1。fCI工作流2。

与现有方法相比fCI提供了几个优势。首先,它执行同样或更好的找到度在不同的数据类型(包括离散和连续数据)从各种组学技术相比,专门为实验设计的方法。其次,它满足紧急需要在组学的研究领域。日益常见proteogenomic方法通过速降测序成本促进多维的集合(即proteogenomics)实验,开发了高效的工具找到co-regulation和依赖性治疗条件或发展阶段之间的度。第三,fCI不依赖于统计方法需要足够大量的复制对度进行评估。而fCI可以有效地识别样本的变化很少或根本没有复制。

2安装fCI

fCI应该安装如下:

如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(fCI)
suppressPackageStartupMessages(库(fCI))库(fCI)

3使用fCI微分表达式分析

fCI非常usefriendly。用户只需要提供一个“标签”分隔输入数据文件的索引,给控制和案例样本。

3.1读取输入数据:

读取Inupt数据到R * *。这个输入将包含基因、蛋白质或其他表达式值与列代表样本/道/复制,和行代表基因。

3.1.1整数原始读计数从门店数据或光谱计算蛋白质组学数据

作为输入,fCI包可以分析统计数据,e . g。,从RNA-seq或其他高通量测序实验中,形式的一个矩阵的整数值。i行和j列中的值矩阵的告诉了多少读取映射到样本中的基因我j。类似地,对于其他类型的分析,矩阵的行可能对应e . g .绑定地区(ChIP-Seq)或肽序列(定量质谱)。

3.1.2标准化的基因表达等RPKM FPKM或峰值intesntiy(身高/区域)在蛋白质组学数据

fCI包的形式也可以分析十进制数据RPKM / FPKM RNA-seq或其他高通量测序实验中,形式的一个矩阵的整数值。i行和j列中的值矩阵的讲述了归一化在基因表达水平我和样本j。

3.1.3比很多实验数据测量相对基因表达对渠道的控制。

例如,蛋白质相对定量MS / MS使用串联的质量标签技术由比率。

3.2数据归一化

3.2.1之上总图书馆标准化

样品都归一化库大小相同(即总原始读计数)如果实验得到复制相同的协议和同等图书馆规模预计在每个实验条件。fCI将应用和标准化,这样每一列具有平等的价值通过总结所有的基因复制。

fci.data = data.frame(矩阵(样本(1043 * 6,3:100取代= TRUE), 1043年,6))fci.data = total.library.size.normalization (fci.data)

3.2.2修剪和规范化

我们可以正常每个复制相同的库大小(读总数)后5%低表达和5%的高表达基因被复制

fci.data = data.frame(矩阵(样本(1043 * 6,3:100取代= TRUE), 1043年,6))fci.data = trim.size.normalization (fci.data)

3.2.3内核密度分布中心

我们假设基因的表达是最不受实验(在形式的RNA和蛋白质)应该有几乎相同的表达水平在不同的复制,RNA-Seq和蛋白质组学数据集。这些改变的基因将集中在零对数转换control-control或病例对照比例分布。因此,我们规范化proteogenomic数据集的fCI成对比率分布(高斯核密度近似)集中在零。

3.3fCI在微阵列数据分析

  • 激增的数据包含一定数量的剧增的差异表达基因与一个已知的截止1.4折的阈值。

  • 输入数据文件一样,行代表基因和列被控制和实验治疗的样本。T

  • 找到度,我们首先创建了一个名为fCI的fCI类对象,将传递到主函数“find.fci.targets”。函数调用,用户需要指定控制样本列id(如一个向量1、2和3)和案例样本列id(如一个向量4、5和6)。每个样本都必须包含相同数量的基因。

  • 选择控制样本,fCI的control-control列表组合形式,即1 - 2、1 - 3、2 - 3,每个包含两个独特的全套的复制控制复制。同样,fCI控制箱的组合形式,即1 - 4、1 - 5、1 - 6、2 - 4、2 - 5、2 - 6、3 - 4、3 - 5、3 - 6,每个包含一个独特的复制从控制和一个独特的复制样品。

pkg.path = path.package (fCI)文件名=粘贴(包裹。/ extdata / Supp_Dataset_part_2路径。”txt”, 9 = " ")如果(file.exists(文件名)){fci = new fci = find.fci (“NPCI”)。目标(fci, c (1、2、3), c(4、5、6),文件名)}
# # Control-Control使用(1 2):&控制箱使用:[1 - 4];Fold_Cutoff = 1.3;Num_Of_DEGs = 821;散度= 0.00015769 # # Control-Control使用:[1 - 2]&控制箱使用:[2 - 4];Fold_Cutoff = 1.3;Num_Of_DEGs = 811;散度= 0.00069831 # # Control-Control使用:[1 - 2]&控制箱使用:[3 - 4];Fold_Cutoff = 1.3;Num_Of_DEGs = 813;散度= 0.00021425 # # Control-Control使用:[1 - 2]&控制箱使用:[1 5]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00056408 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 2 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 819 ; Divergence= 0.00010632 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 3 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00057505 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 1 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 823 ; Divergence= 0.00023359 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 2 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 0.00113844 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 3 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 0.00036187 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 1 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 821 ; Divergence= 1.764e-05 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 2 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 811 ; Divergence= 0.00014706 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 3 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 1.477e-05 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 1 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00014493 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 2 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 819 ; Divergence= 2.89e-06 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 3 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00012726 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 1 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 823 ; Divergence= 5.034e-05 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 2 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 0.00024359 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 3 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 3.525e-05 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 1 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 821 ; Divergence= 2e-08 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 2 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 811 ; Divergence= 1.509e-05 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 3 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 2.82e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 1 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 8.66e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 2 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 819 ; Divergence= 2.82e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 3 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 8.36e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 1 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 823 ; Divergence= 5.8e-07 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 2 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 6.742e-05 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 3 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 1.48e-05

3.4fCI度分析输出

  • 返回的对象的fci将包含所有的差异表达基因和运行时变量,包括度和核密度分布。

3.4.2内核Control-Control和控制箱分布密度图

数据(fci)
# # 426.0178 [1]

  • 内核密度图显示了control-control对数比率的分布数据集和病例对照数据集。一般来说,控制——控制分布应该反映了系统噪声而病例对照将包含真实度和系统噪音。

  • 而不是使用所有控制和样本情况下,用户可以指定一个小
    样本和执行一个试点研究。这是非常有用的,如果用户只在一小部分样品感兴趣。

fci = find.fci。目标(fci, c(1、2), 5、文件名)
# # Control-Control使用(1 2):&控制箱使用:[1 5];Fold_Cutoff = 1.3;Num_Of_DEGs = 820;散度= 0.00056408 # # Control-Control使用:[1 - 2]&控制箱使用:[2 - 5];Fold_Cutoff = 1.3;Num_Of_DEGs = 819;散度= 0.00010632

3.5替代函数找到度

  • 使用相同的微阵列数据集,我们可以用一个函数调用fCI运行。然而,内部运行时变量和fci对象函数返回后将会消失。
如果(file.exists(文件名)){Diff.Expr.Genes = fCI.call.by.index (c (1、2、3), c(4、5、6),文件名)头(Diff.Expr.Genes)}
# # Control-Control使用(1 2):&控制箱使用:[1 - 4];Fold_Cutoff = 1.3;Num_Of_DEGs = 821;散度= 0.00015769 # # Control-Control使用:[1 - 2]&控制箱使用:[2 - 4];Fold_Cutoff = 1.3;Num_Of_DEGs = 811;散度= 0.00069831 # # Control-Control使用:[1 - 2]&控制箱使用:[3 - 4];Fold_Cutoff = 1.3;Num_Of_DEGs = 813;散度= 0.00021425 # # Control-Control使用:[1 - 2]&控制箱使用:[1 5]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00056408 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 2 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 819 ; Divergence= 0.00010632 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 3 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00057505 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 1 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 823 ; Divergence= 0.00023359 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 2 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 0.00113844 ## Control-Control Used : [ 1 2 ] & Control-Case Used : [ 3 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 0.00036187 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 1 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 821 ; Divergence= 1.764e-05 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 2 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 811 ; Divergence= 0.00014706 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 3 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 1.477e-05 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 1 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00014493 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 2 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 819 ; Divergence= 2.89e-06 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 3 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 0.00012726 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 1 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 823 ; Divergence= 5.034e-05 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 2 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 0.00024359 ## Control-Control Used : [ 1 3 ] & Control-Case Used : [ 3 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 3.525e-05 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 1 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 821 ; Divergence= 2e-08 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 2 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 811 ; Divergence= 1.509e-05 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 3 4 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 2.82e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 1 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 8.66e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 2 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 819 ; Divergence= 2.82e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 3 5 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 820 ; Divergence= 8.36e-06 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 1 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 823 ; Divergence= 5.8e-07 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 2 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 6.742e-05 ## Control-Control Used : [ 2 3 ] & Control-Case Used : [ 3 6 ]; Fold_Cutoff= 1.3 ; Num_Of_DEGs= 813 ; Divergence= 1.48e-05
# # 1 # # DEG_Names Mean_Control Mean_Case Log2_FC fCI_Prob_Score 1 0.009 0.002 -2.17 1 # # 2 0.672 0.091 -2.885 1 # # 3 100 1.266 0.399 -1.666 1 # # 4 1000 0.239 0.456 0.932 1 # 5 # 1001 0.136 0.357 1.392 1 # 6 # 1002 0.004 0.014 1.807 1

3.6在一个随机生成的模拟数据集测试fCI

  • 在这个例子中,我们模拟随机生成数据集3控制复制(列1到3)和3例复制(列4至6)。
fci.data = data.frame(矩阵(样本(1043 * 6,3:100取代= TRUE), 1043年,6))

3.6.1寻找差异表达基因(在这种情况下没有度):

  • 识别差异表达基因使用上面的模拟数据:
图书馆(fCI) fCI = = find.fci新(“NPCI”)目标。目标(fci, c (1、2、3), c (4、5、6), fci.data) Diff.Expr.Genes = show.targets(目标)
# #[1]”没有发现差异表达基因!”
头(Diff.Expr.Genes)
# #空
人物(目标)
# # 28.03909 [1]

  • fCI下没有找到当地最低散度给定的截止褶皱的变化。这证实了确实是没有差异表达基因。

  • 这种分析强烈证明fCI能够区分真度与系统噪声。如果病例对照的分布没有显示obivous偏离control-control,没有度会报道。

4多维(即。Pproteogenomics数据)fCI分析

形成的经验和试验分布集成和/或多维(即时间进程数据)。记录在这个例子中,基因表达值c维度(c = 2本图)与m复制每个条件的n基因。的比例选择fCI control-control(二维测量或控制箱)将进行对数变换和归一化的分析。如果病理或实验条件导致许多基因是上调或衰减,更广泛的分布可以被内核密度分布(红色)的3 d椭圆control-control经验相比零分布(蓝色)的3 d椭圆将观察到的。fCI然后逐渐消除了基因从两反面(代表基因有较大的褶皱变化)从两个维度使用车辆疾驰分歧或交叉熵估计(见方法和材料),直到剩下的病例对照分布非常相似或相同的经验零分布,kern表示的密度分布

fCI工作流程3。

fCI工作流程3。

4.1集成proteogeonomics分析的例子

  • 给定一个数据集与基因表达以控制,treatment-1和转录组和蛋白质组学数据处理2。如果用户希望看到重新基因treatment-1对控制转录组和蛋白质组学数据。用户只需要显示控制和数据类型各自的实验样品。例如
fci = new (“NPCI”) filename2 =粘贴(包裹。/ extdata / proteoGenomics路径。”txt”, 9 = " ")如果(file.exists (filename2)) {= find.fci目标。目标(fci,(1:2,七8)列表,列表(5:6,十一12),filename2) Diff.Expr.Genes = show.targets(目标)头(Diff.Expr.Genes)}
# # Control-Control使用:1 2 7 8 &控制箱使用:1 5 7 11;Fold_Cutoff = NA;Num_Of_DEGs = NA;散度= NA # # Control-Control使用:1 2 7 8 &控制箱使用:2 5 7 11;Fold_Cutoff = 2.3;Num_Of_DEGs = 368;散度= 0.1451654 # # Control-Control使用:1 2 7 8 &控制箱使用:1 6 7 11;Fold_Cutoff = 2;Num_Of_DEGs = 562;散度= 0.1187661 # # Control-Control使用:1 2 7 8 &控制箱使用:2 6 7 11; Fold_Cutoff= 2.3 ; Num_Of_DEGs= 443 ; Divergence= 0.1257171 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 1 5 8 11 ; Fold_Cutoff= 2.1 ; Num_Of_DEGs= 548 ; Divergence= 0.1141433 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 2 5 8 11 ; Fold_Cutoff= 2.1 ; Num_Of_DEGs= 379 ; Divergence= 0.05388457 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 1 6 8 11 ; Fold_Cutoff= 2.2 ; Num_Of_DEGs= 335 ; Divergence= 0.05452131 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 2 6 8 11 ; Fold_Cutoff= 2.2 ; Num_Of_DEGs= 421 ; Divergence= 0.04895037 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 1 5 7 12 ; Fold_Cutoff= 2.2 ; Num_Of_DEGs= 410 ; Divergence= 0.04585534 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 2 5 7 12 ; Fold_Cutoff= 2.2 ; Num_Of_DEGs= 384 ; Divergence= 0.1112904 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 1 6 7 12 ; Fold_Cutoff= 2.1 ; Num_Of_DEGs= 456 ; Divergence= 0.09829568 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 2 6 7 12 ; Fold_Cutoff= 2.1 ; Num_Of_DEGs= 534 ; Divergence= 0.09129074 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 1 5 8 12 ; Fold_Cutoff= 2.2 ; Num_Of_DEGs= 459 ; Divergence= 0.08475181 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 2 5 8 12 ; Fold_Cutoff= 2.3 ; Num_Of_DEGs= 279 ; Divergence= 0.03935756 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 1 6 8 12 ; Fold_Cutoff= 2.3 ; Num_Of_DEGs= 291 ; Divergence= 0.04108701 ## Control-Control Used : 1 2 7 8 & Control-Case Used : 2 6 8 12 ; Fold_Cutoff= 2.2 ; Num_Of_DEGs= 398 ; Divergence= 0.03296388 ## A total of 121 genes were identified as differentially expressed.
# # DEG_Names Mean_Control Mean_Case Log2_FC fCI_Prob_Score # # 1 1005 78.629 193.972 1.303 1 # # 2 1008 170.615 112.821 -0.597 1 # # 3 1022 233.846 355.442 0.604 1 # # 4 1071 15.936 23.164 0.54 1 # 5 # 1078 43.783 54.039 0.304 1 # 6 # 1089 11.234 15.302 0.446 1
  • 在这个例子中,控件id是一个两个独立样本id列表。列1和2的样品控制蛋白质组学数据,和列7和8是控制转录组数据的样本。相似,列5和6是样本情况下蛋白质组学数据,和列11和12是转录组数据的样本。

  • 换句话说,用户只需要给一个独立的控制样本id列表,列表,另一个独立的案例样本ide在多维分析。

  • 原proteogenomics数据集显示在下面

proteogenomic.data =阅读。csv (filename2, 9 = \ t)头(proteogenomic.data)
# # wt1 wt2 pten1 pten2 rapa1 rapa2 geneName。1## 1 27.15750 36.40941 21.35104 30.74442 34.16499 30.06127 95.08295 ## 2 166.19078 151.25397 194.59178 194.94338 113.53789 186.48307 32.36110 ## 3 124.66509 128.62288 65.19185 98.03507 92.05198 45.01040 159.18834 ## 4 17.05445 30.42224 34.38357 44.61012 44.12769 32.55465 19.16957 ## 5 541.11602 598.39787 422.02691 370.37849 604.04739 604.53736 10.10458 ## 6 38.70177 64.03203 44.58399 50.98067 51.27947 52.32889 10.24455 ## geneName.2 RPKM_pten1 RPKM_pten2 RPKM_rapamycin1 RPKM_rapamycin2 ## 1 98.130548 92.515797 111.881077 147.422682 141.820048 ## 2 23.797951 29.805476 23.125577 30.851613 27.032258 ## 3 203.869839 212.395122 252.764772 232.002331 220.420246 ## 4 17.001337 20.727699 17.895210 18.702316 20.368886 ## 5 15.947510 10.107647 11.918627 17.034985 16.325242 ## 6 7.734735 7.780514 6.727742 8.104703 7.508715

4.2指定fCI运行时变量

  • 用户可以设置各种各样的fCI,包括控制样本,样本,预定义的褶皱变化截止值,和特定的是否中心核密度的分布。
fci = new (“NPCI”) fci = setfCI (fci,七8,十一12,seq(= 1.1, = 3 = 0.1),真的)

4.3只使用proteogenomics转录组数据集的数据

  • 使用相同的proteogeonomics数据,如果用户只想看到treament-1差异表达基因的转录组。津津有味调用就变成:
如果(file.exists (filename2)) {fci = find.fci。目标(fci,七8,十一12 filename2)头(show.targets (fci))}
7 # # Control-Control使用:[8]&控制箱使用:11 [7];Fold_Cutoff = 1.5;Num_Of_DEGs = 843;散度= 9.1 e-06 # # Control-Control使用:[7 8]&控制箱使用:11 [8];Fold_Cutoff = 1.5;Num_Of_DEGs = 644;散度= 2 e-08 # # Control-Control使用:[7 8]&控制箱使用:12 [7];Fold_Cutoff = 1.5;Num_Of_DEGs = 783;散度= 6.85 e-06 # # Control-Control使用:[7 8]&控制箱使用:12 [8]; Fold_Cutoff= 1.5 ; Num_Of_DEGs= 581 ; Divergence= 0 ## A total of 550 genes were identified as differentially expressed.
# # 1 # # DEG_Names Mean_Control Mean_Case Log2_FC fCI_Prob_Score 1 86.532 130.509 0.593 1 # # 2 100 4.452 17.083 1.94 1 # # 3 1000 6.483 15.307 1.239 1 # # 4 1001 3.136 8.953 1.513 1 # 5 # 1002 1.732 2.405 0.474 1 # 6 # 1005 6.368 11.626 0.868 1
数据(fci)
# # 11.37859 [1]

5fCI背后的理论

我们的方法考虑转录组(例如RPKM值映射读取RNA-Seq实验)和/或蛋白质组学(如蛋白质峰强度从TMT质/ MS)数据从两个生物条件(如突变体和野生型或情况和控制)。目标是确定的一组基因的RNA和/或蛋白质水平显著改变控制相比。

在基本的场景中,我们要求每个条件有两个复制(例如,RNA、蛋白质或集成RNA和蛋白质表达数据)。识别度的一组样本,fCI方法比较相似病例对照的分布比率(服从对数变换),表示P,同样control-control比率(实证null),表示为Q(见图1。c和补充伪代码)。通过建设,问是生物噪声经验,即重复测量相同的样本的比率。温和的假设下,几乎可以确定中心极限定理保证了P和Q将收敛于一个单变量或多变量大样本大小正常。

同样,我们也可以构造分布的P和Q /多维数据集成。在最简单的场景组成的时间进程研究的两个案例在两个时间点,记录和控制复制经验分布P将两个列向量的矩阵表示技术的声音,和Q将第二个矩阵病例对照比,分别测量两个时间点。

识别度,我们考虑分布之间的差异P和Q f-divergence量化的。f-divergence Kullback-Leibler分歧的泛化,车辆疾驰的距离,总变异距离和许多其他的方法比较两个分布基于比值比。f-divergence的目前,我们实现了两个不同的实例,但它是简单的扩展fCI代码通过添加额外的分歧。

过放荡生活的距离,H,是使用最广泛的指标量化两个分布之间的距离。过放荡生活的距离有许多有利的属性,如非负,凸,单调,对称(24、25)(22、23)。计算车辆疾驰的距离,我们首先利用最大似然估计(企业)获得的参数分布P和Q假设高斯分布。两个高斯分布之间的距离变成了:

fCI方法。

fCI方法。

如果我们把病例对照比率数据分为微分和non-differential基因,其余non-differential基因(度)的去除病例对照数据应该来自相同的分布为零(7)经验。因此,散度将在全球最低接近于0。

当多个生物/技术复制被认为是,control-control比和病例对照比可以形成对数学组合(参见图1. b)。否则,如果不能用于控制数据复制,P和Q将直接logarithm-transformed分布的原始基因表达。fCI默认使用过放荡生活的距离。从经验上看,我们发现交叉熵方法提供了更为保守的结果相比,车辆疾驰的距离。