KinSwingR旨在从磷酸化蛋白质组学数据预测激酶活性。它实现的算法描述如下:恩霍尔姆-凯勒等人(2019)(下文将详细介绍)。KinSwingR通过整合激酶底物预测和从磷酸化蛋白质组学研究中获得的肽序列的折叠变化和变化的显著性来预测激酶活性。该分数基于激酶-底物网络的网络连通性,并根据底物的数量和本地网络的大小进行加权。提供p值来评估KinSwing评分的显著性,这是通过整个激酶-底物网络的随机排列来确定的。
KinSwingR实现了3个核心功能:
buildPWM ()
从已知的激酶底物序列构建位置权重矩阵(PWMs)scoreSequences ()
为PWMs构建使用评分buildPWM ()
对照输入的磷蛋白组数据摇摆不定的()
将PWM评分、磷酸肽变化方向、磷酸肽变化意义整合为一个“摇摆”评分。KinSwing评分是激酶活性的指标,范围从阳性到阴性,并提供p值以确定显著性。
还提供了其他函数:
cleanAnnotation ()
功能整理注释和提取肽序列。viewPWM ()
函数查看PWM模型属性可以访问这些函数的详细信息?
命令前面的功能感兴趣。如。buildPWM ?
我们现在将考虑一个示例数据集来预测激酶活性。激酶底物序列和磷蛋白组学数据在KinSwingR包中作为示例数据提供。
首先加载KinSwingR库和包中包含的两个数据库。
1 A0A096MJ61|NA|89|PRRVRNLSAVLAART NA -0.08377538 0.218815889 ## 2 A0A096MJB0|Adcy9|1296|LDKASLGSDDGAQTK NA -0.06885408 0.594494965 ## 4 A0A096MJB0|Adcy9|613|QGTASPGSVSDLAQT NA -0.29418446 0.002806832 ## 5 A0A096MJN4| |Sept4|81|FCPPAPLSPSSRPRS NA -0.12246661 0.078619010
##激酶底物## [1,]"EIF2AK1" "MILLSELSRRRIRSI" ## [2,] "EIF2AK1" " rillselsrrri " ## [3,] "EIF2AK1" "IEGMILLSELSRRRI" ## [4,] "PRKCD" "MKKKDEGSYDLGKKP" ## [5,] "PRKCD" "FPLRKTASEPNLKVR" ## [6,] "PRKCD" "PLLARSPSTNRKYPP"
##选取100个数据点进行演示sample_data < -头(example_phosphoproteome1000)#为演示目的随机抽样set.seed(1234)sample_pwm < -phosphositeplus_human [样本(nrow(phosphositeplus_human),1000),)#可视化的主题,样本只有CAMK2ACAMK2A_example < -phosphositeplus_human [phosphositeplus_human [,1]= =“CAMK2A”,)
在何处的中心肽序列(在感兴趣的磷酸)没有提供所需的格式scoreSequences ()
(请参阅?scoreSequences中的参数" input_data "),可以要求从另一列带注释的数据中提取这些数据。NB。" input_data "表格格式必须包含" annotation "、" peptide "、" fold-change "和" p-values "等列。
在提供的示例数据集中,example_phosphoproteome
,肽没有被提取到一个独立的肽柱。cleanAnnotation ()
作为从注释列提取肽并放入肽列的函数提供。
在示例数据集中,example_phosphoproteome
时,肽序列为注释的第4个成分,对应于使用参数Seq_number = 4
下面,是由|
,对应于参数Annotation_delimiter = "|"
.在这种情况下,带注释的数据还包含多映射和多站点信息。例如下面的注释A1L1I3 | Numbl | 270 | 263; PAQPGHVSPTPATTS; SPTPATTSPGEKGEA
包含两个肽PAQPGHVSPTPATTS
而且SPTPATTSPGEKGEA
从相同的参考基因映射到不同的位点Numbl
,其中多肽由;
.注释的数据还包括多蛋白映射(其中一个肽可以映射到多个蛋白质-未显示)和包含X
而不是_
表示超出编码序列长度的序列。KinSwingR要求编码区外的这些序列用_
因为耳聋,所以replace_search = "X"
而且Replace_with = "_"
可以作为参数在cleanAnnotation ()
来代替这些。这允许在这里输入数据的充分灵活性,取决于用于生成确定肽序列的软件。注:字符以外_
可以使用,但这些需要在稍后调用buildPWM和scoreSequences函数时声明(请参阅它们的帮助文件)。
调用cleanAnnotation ()
将生成一个新表,将唯一的肽序列组合从注释列中提取到肽列中:
annotated_data < -cleanAnnotation(input_data =sample_data,annotation_delimiter =“|”,multi_protein_delimiter =”:“,multi_site_delimiter =”;“,seq_number =4,取代=真正的,replace_search =“X”,replace_with =“_”)头(annotated_data)
1 A0A096MJ61|NA|89|PRRVRNLSAVLAART PRRVRNLSAVLAART -0.08377538 0.218815889 ## 2 A0A096MJB0|Adcy9|1296|LDKASLGSDDGAQTK LDKASLGSDDGAQTK 0.03707147 0.751069301 ## 3 A0A096MJB0 Adcy9|610| prgqgtaspaspgsvsdl prgqggsvsvsdl -0.06885408 0.594494965 ## 4 A0A096MJB0| QGTASPGSVSDLAQT QGTASPGSVSDLAQT -0.29418446 0.002806832 ## 5 A0A096MJN4| |Sept4|81|FCPPAPLSPSSRPRS FCPPAPLSPSSRPRS-0.12246661 - 0.078619010
推断激酶活性的第一步是为激酶建立位置权重矩阵(PWMs)。这可以用buildPWM ()
对于含有激酶列表的中心底物肽序列的任何表。示例数据数据(phosphositeplus_human)
表示构建PWM模型所需的格式。下面,为了演示,我们使用了上面抽样的子集sample_pwm
生成pwm。
这将建立PWM模型,可访问为脉宽调制PWM美元
并列出用于构建每个PWM的基板序列的数量,可访问为PWM美元激酶
.
要查看激酶列表和使用的序列数:
##激酶n ## 1 PLK1 23 ## 7 CSNK2A1 60 ## 8 MAPK8 21 ## 9 AURKA 12 ## 10 MAPK3 27 ## 11 PRKACA 62
基序氨基酸根据其性质被着色。color_scheme
参数允许选项为“lesk”或“shashaped”(默认)。y轴是信息内容,以比特为单位。
CAMK2A_pwm < -buildPWM(CAMK2A_example)CAMK2A < -viewPWM(CAMK2A_pwmwhich_pwm =“CAMK2A”,view_pwm =真正的,color_scheme =“美观”)
接下来,我们将使用生成的PWM模型,脉宽调制
中的匹配项annotated_data
使用清洁过的桌子cleanAnnotation ()
以上。“scoreSequences支持多核处理—参见下面的示例,将worker的数量设置为4。
scoreSequences绘制默认大小的随机背景
N = 1000.建议使用
set.seed ()在打电话之前
scoreSequences如果你想重现你的结果。要访问解释所有参数的帮助文件,请键入
?scoreSequences ' '到控制台。
作为一个控制多核处理的例子#加载BiocParallel库图书馆(BiocParallel)#最后设置/注册要使用的核数注册(SnowParam(工人=4))#为可重复的结果设置种子set.seed(1234)分数< -scoreSequences(input_data =annotated_data,pwm_in =脉宽调制,n =One hundred.)
的输出分数
是透明和可访问的。然而,这些主要是获得挥杆分数的中间表。分数
是一个包含肽得分的简单列表对象吗(分数peptide_scores美元)
,为肽得分的p值(分数peptide_p美元)
背景肽用于评分显著性(成绩背景美元)
再现性(即背景可以保存和重复使用的再现性)。
总之,scoreSequences ()
对每个输入序列进行评分,以匹配使用'提供的所有pwmbuildPWM ()
并为分数生成p值。这实际上是激酶底物边缘的一个大网络,k,由衬底,年代.
建立了激酶-底物网络后,摇摆不定的()
然后整合激酶底物预测、磷酸肽折叠变化的方向性和显著性来评估激酶底物网络的局部连通性(或摆动)。最终评分是预测激酶活性的归一化评分,该评分由PWM模型中使用的底物数量和局部激酶-底物网络中的肽数量加权而成。默认情况下,这将使网络排列1000次(这里我们使用10次作为示例)。建议使用set.seed ()
在打电话之前摇摆不定的
如果你想重现你的结果。' ' swing ' ' ' ' ' '支持多核处理-参见下面的示例将worker的数量设置为4。
#加载BiocParallel库后,设置/注册要使用的内核数注册(SnowParam(工人=4))#为可重复的结果设置种子set.seed(1234)swing_out < -摇摆不定的(input_data =annotated_data,pwm_in =脉宽调制,pwm_scores =分数,排列=10)#这将产生两个表,一个是用于例如Cytoscape的网络,另一个是分数。要查看分数:头(swing_out$分数)
# #激酶pos否定所有pk nk swing_raw n swing p_greater # # 2 AKT1 4 1 5 19 0.8000000 0.2000000 19.726764 1.6151652 0.09090909 # # 5 AURKB 4 1 5 10 0.8000000 0.2000000 15.426556 1.2855635 0.09090909 # # 10 CHEK1 3 1 4 12 0.7500000 0.2500000 11.364062 0.9741821 - 0.18181818 # # 12 CSNK2A1 60 4 4 8 0.5000000 0.5000000 0.000000 0.1031511 - 0.18181818 # # 4 AURKA 4 2 6 12 0.6666667 0.3333333 9.266994 0.8134463 - 0.27272727 # # 6 CAMK2A 16 4 3 7 0.5714286 0.4285714 4.660630 0.4603784 - 0.27272727 # # p_less # # 21.0000000 ## 5 0.9090909 ## 10 0.9090909 ## 12 0.6363636 ## 4 0.8181818 ## 6 0.8181818
该表的输出说明如下:
激酶
:激酶pos
:积极调节激酶底物负的
:消极的调节激酶底物所有
:调节激酶底物的总数pk
:比例积极调节激酶底物nk
:比例消极的调节激酶底物swing_raw
:原始加权得分n
:中减影序列的个数激酶
脉宽调制摇摆不定的
:归一化(z分数转换)-加权分数p_greater
:观察到摇摆分数大于的概率p_less
:观察到挥杆得分小于的概率注意pos
,负的
而且所有
包括一个伪计数,这是设置?摇摆
,请注意pseudo_count
.
* * *见恩霍尔姆-凯勒等人(2019)对于方法说明***
***有关KinSwing算法的完整描述,请参见恩霍尔姆-凯勒等人(2019)***
简而言之:
buildPWM ()
生成基于已知底物序列的激酶的位置权重矩阵(PWMs)(公式1),其中每个激酶,\ (K \),为氨基酸平均频率的对数似然比,\ \ (),在每个位置,\ (p \),除以背景频率,\ (B \)(\ (C \)是一个伪计数,以避免log0):
方程1:\ (PWM_ {(a, p)} =日志((1 / n∑^ n_ {i = 1} K_i) + C) / B_a + C) \)
scoreSequences ()
给每个激酶打分,\ (K \),匹配到基板\ (\),表示为\ (S_{得分}=∑^ n_ {(i = 1)} f (a, p) \),对应对应氨基酸的和,\ \ (),为肽序列长度,我\ \ (),从位置,\ (p \)的,\ (PWM_ {(a, p)} \)而且\ (f (a, p) = PWM_{美联社}∈PWM_ {(a, p)} \).观测的概率\ (S_score \)激酶,\ (K \),是根据大小的随机抽样参考分布来确定的\ (N \)序列\ (P (S_{得分}| R, N) \),在那里\ (R \)序列的检验统计量小于或等于\ (S_{得分}\):
方程2:\(R=∑^N_{n=1}I((S_{score})n*≥(S_{score}) I)\
摇摆不定的()
整合磷酸数据和激酶底物得分scoreSequences ()
进入一个基于局部连通性的激酶活性评分网络,\ (swing_k \),(公式3)。\ (swing_k \)是正数的比例的加权乘积,\ (Pos_k \),负的,\ (Neg_k \),网络边,确定为一个逻辑函数的乘积(描述如下:恩霍尔姆-凯勒等人(2019))假设本地网络的规模,\ (C_k \),\ (n \)激酶底物,\ (K \):
方程3:\ (swing_k = log_2 ((Pos_k + c) / (Neg_k + c)) * log_2 (C_k) * log_2 (S_n) \)
\ (swing_k \),转化为z分数,\ (Z (swing_k) \),在那里,\(μ\),为均值,\(σ\),摆动分数的标准偏差,从而允许在多个时间点和/或条件下比较预测的激酶活性。
KinSwingR解决的问题是“观察激酶预测活性的可能性有多大,\ (K \),是偶然的?通过计算\ (swing_k \)鉴于\ (N \)激酶节点标签的排列,\ (K \),对基质,\ (\)的总网络,\ (M_ {ks} \).因此,观测的概率\ (swing_k \)是有条件的,这个大小为,\ (N \)(公式2)。这是对分布的每个尾部,即正尾部和负尾部计算的\ (swing_k \)分数。
Engholm-Keller, K*, AJ* Waardenberg, JA Müller, JR Wark, RN Fernando, JA Arthur, PJ Robinson, D Dietrich, S Schoch和ME Graham. 2019。“活动依赖的突触前磷酸化信号的时间剖面揭示了刺激后调节的长期持续模式,”3月。https://doi.org/10.1371/journal.pbio.3000170.