PrInCE共洗脱数据的相互作用组重建

迈克尔Skinnider1 *

1加拿大温哥华英属哥伦比亚大学迈克尔·史密斯实验室

＊michael.skinnider@msl.ubc.ca

2022年4月26日

摘要

共洗脱蛋白质组学是指一系列高通量方法，用于绘制蛋白质-蛋白质相互作用网络及其在细胞刺激或分化中的动态。这些方法，也被称为共迁移，共分馏，或蛋白质相关分析，涉及分离相互作用的蛋白质复合物的基础上，其直径或生化性质。蛋白质-蛋白质之间的相互作用可以推断出具有相似洗脱谱的蛋白质对。PrInCE实现了一种机器学习方法，在给定一组标记示例的情况下，使用完全来自数据的特征来识别蛋白质-蛋白质相互作用。这使得PrInCE能够从原始蛋白质组学数据中推断出高质量的蛋白质相互作用网络，而不偏向已知的相互作用或功能相关的蛋白质，使PrInCE成为发现的独特计算资源。我们提供了PrInCE R包的关键功能的概述，并演示了一个从共洗脱实验数据分析的例子，该实验调查了细胞质相互作用组对fas介导的凋亡的反应。

包

王子1.13.0

0．1简介:什么是PrInCE?

蛋白质在分子水平上是生命的核心角色。然而，细胞功能很少是由单个蛋白质单独作用来完成的。相反，大多数生物过程是通过蛋白质和其他生物大分子(如RNA和DNA)的动态组织形成物理相互作用网络来完成的。这些蛋白质相互作用网络的系统地图可以提供一个“接线图”，以补充基因组测序揭示的“部件列表”，将每种蛋白质置于一个功能背景中。然而，从历史上看，蛋白质相互作用网络主要是使用劳动密集型方法绘制的，包括标记每个蛋白质进行亲和纯化，或在酵母中异质表达。除了劳动密集型之外，这些方法还产生了细胞网络的静态图像，几乎没有提供关于这些网络如何通过刺激或分化重新连接的见解。

最近，人们开发了一系列蛋白质组学方法，被称为共洗脱、共迁移、共分馏或蛋白质相关分析，这些方法可以在原生细胞条件下对蛋白质相互作用网络进行高通量映射(1 - 3)．其中一个子集甚至使研究人员能够识别蛋白质-蛋白质相互作用组在响应细胞刺激时的动态重排(1、4)，或横跨在活的有机体内样本，如老鼠组织（5）．统一不同实验方案的基本原理是根据蛋白质复合物的大小(直径)或生化性质将其分离成若干组分，并对这些组分进行定量蛋白质组学分析。在分数中具有相似“剖面”的蛋白质可以推断出物理相互作用。然而，由于潜在对的数量随着被量化的蛋白质数量呈二次增长，而潜在复合体的数量增长更快，因此需要专门的生物信息学方法来从原始蛋白质组学数据推断蛋白质相互作用网络。

PrInCE是一个R包，使用机器学习方法从共洗脱蛋白质组学数据中推断出用户自定义精度水平的蛋白质-蛋白质相互作用网络。PrInCE的输入由来自共洗脱蛋白质组学实验的矩阵组成，对每个部分中的每个蛋白质进行定量(在生物复制的情况下，PrInCE也可以处理多个这样的矩阵)。PrInCE还需要一套“黄金标准”蛋白质复合物来学习。然后计算出每个可能的蛋白质对的一系列特征;重要的是，这些数据直接来自数据，不包含任何外部知识，这一步最大限度地减少了对重新发现已知相互作用的偏见(6）．这些特征以及相应的金标准被用作分类器的输入，分类器学习区分交互和非交互对。然后使用交叉验证程序对数据集中的每个潜在蛋白质对进行评分，然后按分数降序排列，并在这个排名列表中的每个点计算精度(定义为真阳性与真阳性加假阳性的比率)。然后，用户可以将他们选择的精确阈值应用到这个排名列表中，从他们的实验中推断出蛋白质-蛋白质相互作用网络。

0.2例1:凋亡中的相互作用组重排

为了演示PrInCE的使用，我们将使用一个小示例，该示例来自Scott中提供的数据子集et al。, 2017年（4）．在这篇论文中，作者绘制了fas介导的细胞凋亡过程中细胞质和膜相互作用组的重排。对照和刺激的细胞质和膜相互作用组分别在3个重复中进行量化，这意味着完整的数据集由12个重复组成。在实践中，每组重复将一起分析(总共四个网络)。然而，对数据集进行如此完整的分析需要一个多小时，因此对于这个小插图，我们将重点放在单个复制上。所讨论的复制是fas刺激条件下的第一个细胞质复制，并与PrInCE包捆绑在一起;可以通过以下命令加载:

库(王子)数据(斯科特)

该数据集包括比例蛋白质定量，由SILAC(细胞培养中氨基酸的稳定同位素标记)实现，用于55个尺寸排除色谱(SEC)馏分中的1560个蛋白质:

暗(斯科特)

## [1] 1560 55

每种蛋白质至少在一个分数中被定量;然而，许多测量方法都被忽略了:

斯科特(1:10,1:5)

南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南南

这种情况在共洗脱数据中很常见:例如，如果一个蛋白质没有形成分子量在该分数质量范围内的复合物，那么它将从给定的SEC分数中完全缺失。

为了使用PrInCE的机器学习方法预测蛋白质-蛋白质相互作用，我们还需要两个额外的信息来训练分类器:一组真正的积极相互作用，一组真正的消极相互作用。在实践中，我们建议提供一个实验验证的蛋白质复合物列表:PrInCE假设复合物内的相互作用代表真正的阳性，而复合物间的相互作用代表真正的阴性。这些信息可以从许多来源获得，比如CORUM数据库(7），或者我们自己之前报道的CORUM的自定义子集，可以去除在共洗脱条件下可能无法保持完整的复合物（8）．在PrInCE R包中，我们提供了第三个选项，它是在CC-BY许可下发布的，由来自Complex Portal的477个人类蛋白质复合物的列表组成（9)．

数据(gold_standard)头(gold_standard)

##[1]“O95264”“P46098”“p4wxa8”## ## $“5-羟色胺- 3a /C受体复合物”##[1]“P46098”“Q8WXA8”## ## $“5-羟色胺- 3a /D受体复合物”##[1]“P46098”“Q70Z44”## ## $“5-羟色胺- 3a /E受体复合物”##[1]“P46098”“A5X5Y0”## ## $“6-磷酸子激酶，M2L2异四聚体”##[1]“P08237”“P17858”## ## $“ACF复合物”##[1]“Q9NRL2“O60264”

0.2.1预测蛋白质-蛋白质相互作用:一步分析

PrInCE包的主要功能王子，提供了从原始共洗脱数据预测蛋白质-蛋白质相互作用网络的端到端工作流程。简单地说，这个函数首先过滤信息太少而无法进行数据分析的蛋白质，然后清理剩余蛋白质的配置文件，并为每个清理的配置文件匹配一个混合高斯。PrInCE然后计算每个蛋白质对的六个特征，从原始的配置文件，清洗的配置文件，或拟合的高斯混合模型，如果使用多个复制，则在多个复制之间连接特征。这些特征被用作机器学习模型的输入，以及一组“金标准”真正和真负相互作用，该模型使用十倍交叉验证程序为每个蛋白质对分配分数。蛋白质对根据分类器得分进行排序，并计算排序列表中每个点的精度。整个列表将返回给用户，用户可以选择符合其需求的精度阈值。

一旦我们将共洗脱矩阵和金标准蛋白复合物列表加载到R中，通过PrInCE推断蛋白质-蛋白质相互作用网络就像下面的命令一样简单:

set.seed(0) ##未评估PrInCE(scott, gold_standard)

但是，不计算此命令，以提供有关参数的进一步信息王子函数。PrInCE用于对蛋白质-蛋白质相互作用进行评分的六个特征之一，来自于将高斯的混合物拟合到每个蛋白质的洗脱谱。高斯拟合的过程也允许PrInCE过滤低质量洗脱谱的蛋白质(即，高斯混合物不能用r拟合的蛋白质)²值大于某个最小值，默认设置为0.5)。然而，将高斯混合模型拟合到成千上万条曲线的过程是PrInCE中计算量更大的步骤之一，因此，需要大量的数据王子函数也可以取预先计算的拟合高斯值列表，使用命令进行拟合build_gaussians：

set.seed(0) ##不评估build_gausssis (scott)

在实践中，提供预先计算的高斯函数的能力还可以节省在PrInCE中尝试不同参数时的时间，例如不同类型的分类器(下一节将详细描述)。

我们提供了一个适合高斯函数的列表斯科特数据集scott_gaussians对象:

数据(scott_gaussians) str (scott_gaussians [[3]])

## $ n_gausss5: int 3 ## $ R2: num 0.95 ## $ iterations: num 1 ## $ coefs: 3 ##的列表$ A: Named num [1:3] 2.9 1.59 1.21 ## .. ..- attr(*,“名字”)= [1:3]" A1 "从而向“A2”“A3 # # . .$ mu: Named num [1:3] 16.05 4.91 40.95 ## .. ..- attr(*,“名字”)=[1:3]从而向“mu1”“mu2”“mu3”# # . .$ sigma: Named num [1:3] 6.74 3.11 3.32 ## .. ..- attr(*， "names")= chr [1:3] "sigma1" "sigma2" "sigma3" ## $ curveFit: num[1:55] 0.348 0.701 1.161 1.581 1.789…

因此，我们使用以下命令使用预先计算的高斯曲线运行PrInCE，允许PrInCE打印有关分析状态的信息(verbose = TRUE)，为了节省时间，限制交叉验证折叠的数量:

set.seed(0) #一步分析交互<- PrInCE(scott, gold_standard, gausssis = scott_gausssis, cv_folds = 3, verbose = TRUE)

##为复制1生成特征…

##拟合高斯的混合物到1560个profile中的970个

##跨复制连接特性…

##做标签…

##训练分类器…

头(交互,50)

## protein_A protein_B评分标签精度## P36578_P40429 P36578 p40578 P46778 P46778 P46778 P46778 P62424 P46778 P62424 0.9966104 NA 1.0 ## P11940_Q08211 P11940 Q08211 0.9964540 0 0.5 ## P14868_P41252 P14868P41252 0.9964416 na 0.5 ## p05388_p36578 p05388 p36578 p05388 p40429 p3662900 na 0.5 ## p05388_p40429 p36588 p40429 p3662752 na 0.5 ## p47914_p62913 p47914 p6294q54136 q15046 0.9962349 na 0.5 ## p24534_p26634 p24534 p266661 na0.9961656 na 0.5 ## p13796_q96kp4 p13796 q96kp4 0.9961656 na 0.9961433 na 0.5 ## p61254_p62241 p61254p6224p63104 p07195 p63104 p9961071 na 0.9961065 na 0.5 ## p04075_p31946 p04075 d3ytb1 p36578 d3ytb1 p36578 0.9960820 na 0.5 ## p49207_p62906P49207 P62906 0.9960814 NA 0.5 ## C9J4Z3_P05388 C9J4Z3 P05388 0.9960643 NA 0.5 ## P46778_P61313 P46778 P61313 0.9960462 NA 0.5 ## P62249_P62263 P62249 P62263 0.9960311 NA 0.5 ## E7EPB3_P05387 E7EPB3 P05387 0.9960072 NA 0.5 ## D3YTB1_P47914 D3YTB1 P47914 0.9959959 NA 0.5 ## P13796_P22392-2 P13796 P22392-2 0.9959923 NA 0.5 ## P30520_Q9NY33 P30520 Q9NY33 0.9959870 NA 0.5 ## P05387_P05388 P05387 P05388 0.9959828 NA 0.5 ## P47914_P62424 P47914 P62424 0.9959807 NA 0.5 ## P18124_P40429 P18124 P40429 0.9959782 NA 0.5 ## P07814_P54136 P07814 P54136 0.9959722 NA 0.5 ## P40429_P62906 P40429 P62906 0.9959695 NA 0.5 ## P18124_P61313 P18124 P61313 0.9959678 NA 0.5 ## P05388_P46778 P05388 P46778 0.9959540 NA 0.5 ## D3YTB1_P05388 D3YTB1 P05388 0.9959445 NA 0.5 ## P08590_P60660-2 P08590 P60660-2 0.9959252 NA 0.5 ## P26373_P32969 P26373 P32969 0.9959108 NA 0.5 ## P13639_P27348 P13639 P27348 0.9959085 NA 0.5 ## P05387_P46778 P05387 P46778 0.9958969 NA 0.5

回显信息列如下:

protein_A:蛋白质对中第一个蛋白质的标识符;
protein_B:该对中第二个的标识符;
分数:分类器分配给蛋白质对的分数
标签:如果蛋白质对在参考集中，则该值为1(对于真实的阳性反应)或者0(对于真实的否定);对于所有其他对，值为NA
精度:在排位列表中这一点的精度

请注意，在列表的顶部，如果没有真阳性，则不定义精度而且目前还没有遇到真正的不利因素。

在这个玩具示例中，数据集的小尺寸和黄金标准复合体的小尺寸意味着精度曲线在大约2000次交互以下是不稳定的:

精度<-交互$ Precision [1:10000] plot(精度)

在大多数实际例子中，精度曲线显示出更平滑的下降。

为了说明的目的，我们在这里阈值网络在50%的精度使用threshold_precision功能:

网络<- threshold_precision(交互，阈值= 0.5)

## [1] 7607

这导致了一个未加权的蛋白质-蛋白质相互作用网络，其中有7607种相互作用。

0.2.2预测蛋白质-蛋白质相互作用:逐步分析

的王子函数接受前面讨论中省略的大量参数。基于涉及大量公共领域的人类共洗脱蛋白质组学数据的分析，我们努力为每个参数设置合理的默认值。但是，用户可能希望根据数据集的属性或激发他们调查的生物学问题来更改其中的一些默认值。在这里，我们提供了用于分析斯科特数据集的一步一步的方式，并讨论了一些最重要的参数。

0.2.2.1`build_gaussians`

的build_gaussiansPrInCE中的函数可以分解为三个步骤。首先，通过基本的过滤和清洗操作对配置文件进行预处理。单个缺失值被归为它们两个相邻点的平均值，并且从进一步的分析中过滤出少于五个连续点的剖面。然后，通过用近零噪声替换缺失值来清理轮廓，并使用移动平均滤波器进行平滑。最后，利用非线性最小二乘对每个曲线拟合1 ~ 5个高斯的混合物，并进行模型选择，以保留每条曲线的最佳混合模型。不能与没有r的高斯函数的混合物相匹配的蛋白质²大于某个最小值的值将被省略。

该函数接受以下参数:

min_consecutive:输入单个缺失值后，保留轮廓的最小连续点数;默认为5
min_points:保留档案的最少总分数;默认为1因此，仅使用连续点的数量来筛选概要文件
impute_NA:如果假，跳过单个缺失值的imputation
光滑的:如果假，使用移动平均滤波器平滑跳过曲线
smooth_width:移动平均滤波器宽度，以分数为单位;默认为4
max_gaussians:拟合每个剖面所需的最大高斯数;默认为5
标准:模型选择的准则;默认为AICc，修正赤池信息准则;其他选择包括BIC(贝叶斯信息准则)或另类投资会议(赤池信息标准)
max_iterations:用于随机重启曲线拟合的最大迭代次数
min_R_squared:最小r²值保留拟合曲线;默认为0．5．不能被混合高斯拟合的配置文件被认为是低质量的，默认情况下被排除在进一步分析之外。
方法用于选择初始条件的方法nls；可以选择任意一个随机参数(随机)或根据概要文件中的最大值进行有根据的猜测(猜一猜，默认值)
filter_gaussians_center，filter_gaussians_height，filter_gaussians_variance_min，filter_gaussians_variance_max:用于过滤低质量高斯拟合的启发式。如果真正的(默认),filter_gaussians_center将去除均值落在色谱范围之外的高斯函数。filter_gaussians_height控制高斯函数的最小高度，而filter_gaussians_variance_min而且filter_gaussians_variance_max控制它们的标准差范围。

除了最后四个参数外，所有这些参数都通过王子函数。

作为示例，我们将重新分析斯科特具有更严格过滤标准的数据集，除五个连续点外，要求至少存在十个(非估算)数据点;最大为三个高斯拟合，而不是五个;并且要求比默认设置更适合。为了节省时间，我们在这里只允许曲线拟合算法进行10次迭代，并且我们选择只拟合前500个剖面。

set.seed(0) # fit高斯高斯<- build_高斯(scott[seq_len(500)，]， min_points = 10, min_连续= 5,max_高斯= 3,min_R_squared = 0.75, max_iterations = 10)

# # . .拟合255个剖面的高斯混合模型

#不符合Scott的过滤配置文件<- Scott[名称(高斯)，]

默认情况下，轮廓矩阵被过滤以排除在特征化之前无法被混合高斯拟合的洗脱轮廓的蛋白质。

0.2.2.2`calculate_features`

在用高斯拟合我们的共洗脱谱并对其进行相应过滤后，下一步是计算每个蛋白质对的特征。这是使用calculate_features函数。默认情况下，PrInCE从每对共洗脱配置文件中计算6个特征作为分类器的输入，包括传统的相似度指标，但也有几个专门适应于共洗脱蛋白质组学的特征。整套功能包括:

原始共洗脱谱之间的Pearson相关性;
原始共洗脱谱之间皮尔逊相关的p值;
清洁轮廓之间的皮尔逊相关性，这些轮廓是通过将单个缺失值与它们的邻居的平均值进行输入而生成的，用随机的近零噪声替换剩余的缺失值，并使用移动平均滤波器平滑轮廓(参见clean_profile）;
清洗轮廓之间的欧几里得距离;
“共峰”分数，定义为每个剖面最大值之间的距离，以分数表示;而且
“共尖”分数，定义为任何一对合适的高斯函数之间的最小欧几里得距离

除了轮廓矩阵和拟合高斯混合的列表外，还使用了calculate_features函数接受六个参数，使用户能够启用或禁用这六个特性中的每一个(依次为:pearson_R_raw，pearson_P，pearson_R_cleaned，euclidean_distance，co_peak,co_apex)．缺省情况下，所有6个都是启用的。

继续我们的例子，如果我们想要分类器省略欧几里得距离，我们可以使用以下命令禁用这个功能:

feat <- calculate_features(scott, gauss, euclidean_distance = FALSE)

A0AVT1 B4DQJ8 2.851543e-06 1.018199 0.001520321 2 2.714134 ## 4 B3KNT8 B4DQJ8 1.045782e+00 1.110313 0.827969878 13 7.815383 ## 5 B4DQ14 B4DQJ8 3.928140e-01 1.064420 0.110395487 45 23.819433 ## 6 B3KNT8 B4DVY1 1.577634e+00 1.114307 0.001033478 27 9.182583

如果我们有多个复制，我们将在这里使用连接到单个特征数据帧concatenate_features功能:

##不运行#串联三个不同的' scott '复制的特征feat1 <- calculate_features(scott1, gauss1) feat2 <- calculate_features(scott2, gauss2) feat3 <- calculate_features(scott3, gauss3) feat <- concatenate_features(list(feat1, feat2, feat3)

0.2.2.3`predict_interactions`

有了我们的特征和金标准蛋白质复合物列表，我们现在可以将这些提供给机器学习分类器来对潜在的相互作用进行排名。可以使用predict_interactions函数。为了对作为参考集一部分的交互进行评分，PrInCE使用了交叉验证策略，将参考数据随机分为10个折叠，并使用每个分割来对其中一个折叠中的交互进行评分，而不将它们包含在训练数据中。对于不属于训练集的交互，将返回所有十次折叠的中位数分数。此外，为了确保结果对数据集的分割方式不敏感，PrInCE对十个分类器的集合进行平均预测，每个分类器都有不同的交叉验证分割。默认情况下，PrInCE使用朴素贝叶斯分类器。但是，PrInCE R包还实现了其他三种类型的分类器:支持向量机、随机森林和逻辑回归。此外，PrInCE提供了通过多个不同分类器集成结果的选项(有时称为“异构分类器融合”)。（10）)．在这个选项中，对所有四种类型的分类器独立执行交叉验证和集成，然后在所有四种分类器中平均每个蛋白质对的排名，以返回最终的排名列表。

这些选项由以下参数控制:

分类器:要使用的分类器类型;之一注，支持向量机，射频，LR,或系综，对应于上述选项
模型:每种分类器类型的集合的大小，即要训练的模型的数量，每个模型都有不同的训练测试分割
cv_folds:用于k-fold交叉验证的折叠数
树:仅对于随机森林和异构分类器融合，为每个RF模型中的树数

继续我们的示例，我们将演示如何使用支持向量机对潜在的交互进行排序(分类器= "SVM")．为了节省时间，我们使用单一模型(省略集成;型号= 1)和只有三次交叉验证折叠(Cv_folds = 3)．要使用我们的蛋白质复合物列表作为金标准，我们必须首先将其转换为邻接矩阵;这是使用helper函数完成的adjacency_matrix_from_list(请参见相关函数adjacency_matrix_from_data_frame)．

data(gold_standard) reference <- adjacency_matrix_from_list(gold_standard) #设置种子以确保可重现的输出set.seed(0) #预测交互ppi <- predict_interactions(feat, reference, classifier = "SVM"， models = 1, cv_folds = 3)

我们现在可以绘制出前20000次交互的精度曲线:

精度<- ppi$ Precision [seq_len(2e4)] plot(精度)

最后，我们可能希望只保留高置信度交互的集合进行进一步分析，其中“置信度”是使用精度量化的。可以使用threshold_precision函数。例如，下面的命令以70%的精度构建蛋白质-蛋白质相互作用网络:

Net <- threshold_precision(ppi, threshold = 0.7)

## [1] 4168

0.2.3鉴定共洗脱蛋白复合物

PrInCE的核心功能包括使用机器学习框架从共洗脱数据中预测二元相互作用，发现新的相互作用是主要目标。然而，PrInCE也实现了这个分析框架的一个替代方案，即是否观察到统计上显著的共洗脱已知的蛋白质复合物。
这是使用基于排列的方法实现的，灵感来自于另一种用于相互作用组分析的蛋白质组学方法，热接近共聚集(TPCA)。（11）．简单地说，给定已知复合体的列表，PrInCE计算所有复合体成员对之间的Pearson相关性中位数。(为了减少在相同分数中很少观察到的蛋白质之间的虚假相关性的影响，PrInCE需要一定的最小配对观察数量，以包括本分析中的任何给定相关性——默认情况下，10对)。然后，PrInCE模拟大量等效大小的复合体(默认为100)，并计算随机“复合体”对之间的Pearson相关性中位数。由此产生的零分布用于评估在蛋白质复合物水平上观察到的共洗脱剖面的统计显著性。

为了从Complex Portal数据集中识别在此复制中显著共洗脱的复合物，我们首先使用PrInCEfilter_profiles而且clean_profiles功能:

# analyze cleaned profiles data(scott) filtered = filter_profiles(scott) chromatography grams = clean_profiles(filtered)

的filter_profiles函数使用一组允许的过滤器来丢弃不包含足够信息的色谱图，以推断蛋白质的相互作用伙伴。类似地,clean_profiles对过滤后的色谱图进行简单的预处理。缺省情况下，该函数用于计算PrInCE交互预测时的Pearson相关性。它将单个缺失值作为两个相邻值的平均值，其余缺失值具有接近零噪声，然后通过移动平均滤波器对色谱图进行平滑。

我们现在可以测试复杂的共洗脱在预处理色谱矩阵使用detect_complexes功能:

#检测显著共洗脱配合物set.seed(0) z_scores = detect_complexes(色谱图，gold_standard)

给出了无法测试的配合物(即在洗脱矩阵中存在少于三个配合物成员)NA值，我们将其删除。

#删除无法分析的复体z_scores = na.省略(z_scores) #有多少可以测试?长度(z_scores)

## [1]

在未校正的双尾p < 0.05时，有多少是显著的?Sum (z_scores > 1.96)

## [1]

#打印顶部的复合体头部(sort(z_scores, deleting = TRUE))

## COP9信号体变异1 ## 9.083072 ## COP9信号体变异2 ## 6.744865 ## crd介导的mRNA稳定性复合物## 5.806526 ## MCM复合物## 5.779922 ##凝聚蛋白I复合物## 4.568462 ##胚胎干细胞特异性SWI/SNF atp依赖性染色质重塑复合物## 4.256243

在这个(异常稀疏的)重复中可以测试的23个复合物中，有13个在未校正的双尾p值阈值0.05处显著

0.3例2:海拉细胞的相互作用组

作为第二个示例，我们可以重新分析与PrInCE R包捆绑在一起的另一个数据集。该数据集由Kristensen提供的数据的子集组成et al。, 2012年(1）他们应用SEC-PCP-SILAC监测HeLa细胞裂解物的相互作用组，然后绘制表皮生长因子(EGF)刺激诱导的相互作用组重排列。进行了三个生物重复实验，在实践中，每个条件的所有三个重复将一起分析。但是，为了演示PrInCE R包的使用，我们将分析限制在未刺激条件下的第一个复制。

我们首先加载数据矩阵和拟合的高斯函数，提供了PrInCE R包:

数据(“kristensen”)数据(“kristensen_gaussian”)dim(kristensen)

## [1] 1875 48

长度(kristensen_gaussians)

## [1] 1117

共洗脱矩阵包含1875个蛋白质在48秒分数的定量。高斯的混合适合于1117个。为了节省时间，我们将这个矩阵进一步子集到前500个蛋白质:

Kristensen <- Kristensen [names(kristensen_gaussans)，] Kristensen <- Kristensen [seq_len(500)，] kristensen_gaussans <- kristensen_gaussans [rownames(Kristensen)]

我们还必须加载二元相互作用或蛋白质复合物的参考集，在这种情况下，它来自复杂门户人类复合物。

数据("gold_standard")头(gold_standard, 5)

## [1] "O95264" "P46098" "P46098" ## ## $ ' 5-羟色胺- 3a /C受体复合物' ## [1]"P46098" "Q8WXA8" ## ## $ ' 5-羟色胺- 3a /D受体复合物' ## [1]"P46098" "Q70Z44" ## ## $ ' 5-羟色胺- 3a /E受体复合物' ## [1]"P46098" "A5X5Y0" ## ## $ ' 6-磷酸子激酶，M2L2异四聚体' ## [1]"P08237" "P17858"

我们可以使用main在一个步骤中预测交互王子函数，这里使用单个模型(而不是默认的十个集合)和五个交叉验证折叠(而不是默认的十个)的时间:

set.seed(0) #预测交互作用交互作用<- PrInCE(profiles = kristensen, gold_standard = gold_standard, gausians = kristensen_gausians, models = 1, cv_folds = 5)

最后，我们可以对交互列表进行子集化，以获得用于进一步分析的高置信度交互集，使用50%的放松精度截断。

网络<- threshold_precision(交互，0.5)nrow(网络)

## [1] 1404

PrInCE以50%的精度预测了总共1047次相互作用。

0.4会话信息

sessionInfo ()

## R版本4.2.0 RC (2022-04-21 r82226) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats graphics grDevices utils datasets methods基础## ##其他附加包:## [1]PrInCE_1.13.0 BiocStyle_2.25.0 ## ##通过命名空间加载(且未附加):## [4] base64enc_0.1-3 clue_0.3-60 rstudioapi_0.13 ## [7] mzR_2.31.0 affyio_1.67.0 fansi_1.0.3 ## [10] tester_0.1.7 ranger_0.13.1 codetools_0.2-18 ## [13] splines_0.95 -0 impute_1.71.0 knitr_1.38 ## [19] speedglm_0.3-4 Formula_1.2-4 jsonlite_1.8.0 ## [22] cluster_2.1.3 vsn_3.65.0 png_0.1-7 ## [28] assertthat_0.2.1 Matrix_1.4-1[34] htmltools_0.5.2 tools_4.2.0 gtable_0.3.0 ## [37] glue_1.6.2 affy_1.75.0 LiblineaR_2.10-12 ## [40] dplyr_1.0.8 naivebayes_0.9.7 rcppy_0.8.3 ## [43] MALDIquant_1.21 Biobase_2.57.0 jquerylib_0.1.4 ## [46] fracdiff_1.5-1 vctrs_0.4.1 urca_3 . 1.3-0 # [49] preprocessCore_1.59.0 nlme_1 .1-157 iterators_1.0.14 ## [52] lmtest_0.9-40 timeDate_3043.102 xfun_0.30 ## [55] string_1 .4.0 rbibutils_2.2.8 lifecycle_1.0.1 ## [58] XML_3.99-0.9DEoptimR_1.0-11 zlibbioc_1.43.0 ## [61] MASS_7.3-57 zoo_1.8-10 scales_1.2.0 ## [64] MSnbase_2.23.0 pcaMethods_1.89.0 hms_1.1.1 ## [67] ProtGenerics_1.29.0 parallel_4.2.0 RColorBrewer_1.1-3 ## [70] yaml_2.3.5 quantmod_0.4.18 curl_4.3.2 ## [73] gridExtra_2.3 ggplot2_3.3.5 sass_0.4.1 ## [76] rpart_4.1.16 latticeExtra_0.6-29 stringi_1.7.6 ## [79] highr_0.9 S4Vectors_0.35.0 tseries_0.10-50 ## [82] foreach_1.5.2 checkmate_2.1.0 TTR_0.24.3 ## [85] BiocGenerics_0.43.0 BiocParallel_1.31.0 Rdpack_2.3 ## #[88] rlang_1.0.2 pkgconfig_2.0.3 mzID_1.35.0 ## [91] evaluate_0.15 lattice_0.20-45 purrr_0.3.4 ## [94] htmlwidgets_1.5.4 tidyselect_1.1.2 plyr_1.8.7 ## [100] magrittr_2. 7.3 IRanges_2.31.0 generics_0.5.1 ## [103] Hmisc_4.7-0 DBI_1.1.2 pillar_1.7.0 ## [106] foreign_0.8-82 MsCoreUtils_1.9.0 xts_0.12.1 ## [109] survival_3.3-1 nnet_7.3-17 tibble_1 .1.6 ## [115] jpeg_0.1-9 progress_1.2.2 grd_4.2.0 ## [118]Data.table_1.14.2 forecast_8.16 digest_0.6.29 ## [121] tidyr_1.2.0 stats4_4.2.0 munsell_0.5.0 ## [124] bslib_0.3.1 quadprog_1.5-8

参考文献

1.Kristensen AR, Gsponer J, Foster LJ(2012)一种测量相互作用组时间变化的高通量方法。自然方法9(9): 907 - 909。

2.Havugimana PC等(2012)人类可溶性蛋白复合物普查。细胞150(5): 1068 - 1081。

3.Kirkwood KJ, Ahmad Y, Larance M, Lamond AI(2013)基于大小分割的定量蛋白质组学研究。分子与细胞蛋白质组学: mcp-M113。

4.Scott NE等(2017)凋亡过程中相互作用组的分解独立于caspase裂解。分子系统生物学13(1): 906。

5.skinner MA等人(2018)哺乳动物组织中蛋白质-蛋白质相互作用的图谱。bioRxiv: 351247。

6.Skinnider MA, Stacey RG, Foster LJ(2018)基因组数据集成系统地偏向交互组映射。PLoS计算生物学14 (10): e1006474。

7.Giurgiu M, et al. (2018) CORUM:哺乳动物蛋白复合物的综合资源- 2019。核酸研究．

8.Stacey RG, Skinnider MA, Chik JH, Foster LJ(2018)文献管理蛋白质相互作用数据库中的上下文特定相互作用。BMC基因组学19(1): 758。

9.Meldal BH等人(2018)复合物门户2018:大分子复合物的扩展内容和增强可视化工具。核酸研究．

10.Riniker S, Fechner N, Landrum GA(2013)异构分类器融合用于配体虚拟筛选:或者，委员会的决策如何成为一件好事。化学信息与建模杂志53(11): 2829 - 2836。

11.Tan CSH等。(2018)细胞中蛋白质复合物动力学全系统分析的热接近共聚集。科学359(6380): 1170 - 1177。