1介绍KinSwing

从phoshoproteomics数据KinSwingR旨在预测激酶活性。它实现了alogorithm中描述:Engholm-Keller et al。(2019)(在下面更详细)。KinSwingR预测激酶活性通过整合kinase-substrate预测和变化的褶皱变化和意义从phospho-proteomics研究获得的肽序列。分数是基于kinase-substrate网络的网络连接和基板的数量进行加权以及本地网络的大小。假定值提供评估KinSwing分数的意义,这是通过随机permuations总体kinase-substrate网络。

KinSwingR被实现为三个核心功能:

buildPWM ()构建位置权重矩阵(pwm)已知kinase-substrate序列
scoreSequences ()分数pwm构建使用buildPWM ()数据法对输入组织磷酸化蛋白质组
摇摆不定的()集成PWM分数,此处则变化的方向和意义此处则变成一个“摇摆”的分数。

激酶活性的KinSwing分数是一个指标,从正到负,假定值提供确定的意义。

也提供了额外的功能:

cleanAnnotation ()功能整理注释和提取肽序列。
viewPWM ()功能视图PWM模式

详细的信息为每个这些函数可以访问使用吗?命令之前感兴趣的功能。如。buildPWM ?

2KinSwingR示例工作流

现在,我们将考虑一个示例数据集来预测激酶活性。Kinase-substrate序列和phosphoproteomics KinSwingR包中数据为例提供数据。

首先加载KinSwingR图书馆和两个数据库包含在包中。

图书馆(KinSwingR)数据(example_phosphoproteome)数据(phosphositeplus_human)#查看数据集:头(example_phosphoproteome)

# # 1 # #注释肽fc pval A0A096MJ61 | NA | 89 | PRRVRNLSAVLAART NA -0.08377538 - 0.218815889 # # 2 A0A096MJB0 | Adcy9 | 1296 | LDKASLGSDDGAQTK NA 0.03707147 - 0.751069301 # # 3 A0A096MJB0 | Adcy9 | 610 | PRGQGTASPGSVSDL NA -0.06885408 - 0.594494965 # # 4 A0A096MJB0 | Adcy9 | 613 | QGTASPGSVSDLAQT NA -0.29418446 - 0.002806832 # # 5 A0A096MJN4 | Sept4 | 49 | ILEPRPQSPDLCDDD NA 0.09097982 - 0.078667811 # # 6 A0A096MJN4 | Sept4 | 81 | FCPPAPLSPSSRPRS NA -0.12246661 - 0.078619010

头(phosphositeplus_human)

# # # #激酶衬底(1)“EIF2AK1”“MILLSELSRRRIRSI”# # [2]“EIF2AK1”“RILLSELSR______”# # [3]“EIF2AK1”“IEGMILLSELSRRRI”# # [4]“PRKCD”“MKKKDEGSYDLGKKP”# # [5]“PRKCD”“FPLRKTASEPNLKVR”# # [6]“PRKCD”“PLLARSPSTNRKYPP”

# #样品100数据点示范sample_data < -头(example_phosphoproteome1000年)#随机样本demosntration用途set.seed(1234年)sample_pwm < -phosphositeplus_human [样本(nrow(phosphositeplus_human),1000年),)#视觉主题,只有CAMK2A示例CAMK2A_example < -phosphositeplus_human [phosphositeplus_human [,1]= =“CAMK2A”,)

2.1提取多肽进行分析

集中的肽序列(感兴趣的phosphosite)不提供所需的格式吗scoreSequences ()(参见参数“input_data”, ? scoreSequences),这些可以从另一列需要提取的带注释的数据。NB。“input_data”表格格式必须包含列“注释”,“肽”、“叠化”和“假定值”。

在数据集提供的例子中,example_phosphoproteome,没有提取到一个stand-a-lone肽肽列。cleanAnnotation ()提供一个函数来提取肽肽列从注释列和地方。

在数据集的例子中,example_phosphoproteome,肽序列的第四部分是注释,这对应于使用参数seq_number = 4下面,是分离的|,对应的参数annotation_delimiter = " | "。在这种情况下,带注释的数据也包含multi-mapped和多站点信息。例如下面的注释A1L1I3 | Numbl | 270 | 263; PAQPGHVSPTPATTS; SPTPATTSPGEKGEA包含两个多肽PAQPGHVSPTPATTS和SPTPATTSPGEKGEA映射到不同的网站从相同的参考基因Numbl,肽的分离;。带注释的数据还包括多映射(肽可以映射到多个蛋白质——没有显示)和包含X而不是_表示序列,编码序列的长度之外。KinSwingR要求这些序列编码区以外的标记_作为deafult因此replace_search = " X "和replace_with = " _ "可以用作参数cleanAnnotation ()取代这些。这允许完整的输入数据的灵活性,不同的软件用于生成确定肽序列。注:字符以外_可以使用,但这些需要宣布当调用buildPWM scoreSequences功能后(见他们的帮助文件)。

调用cleanAnnotation ()将生成一个新表的独特组合肽序列从注释中提取列到肽列:

annotated_data < -cleanAnnotation(input_data =sample_data,annotation_delimiter =“|”,multi_protein_delimiter =”:“,multi_site_delimiter =”;“,seq_number =4,取代=真正的,replace_search =“X”,replace_with =“_”)头(annotated_data)

# # 1 # #注释肽fc pval A0A096MJ61 | NA | 89 | PRRVRNLSAVLAART PRRVRNLSAVLAART -0.08377538 - 0.218815889 # # 2 A0A096MJB0 | Adcy9 | 1296 | LDKASLGSDDGAQTK LDKASLGSDDGAQTK 0.03707147 - 0.751069301 # # 3 A0A096MJB0 | Adcy9 | 610 | PRGQGTASPGSVSDL PRGQGTASPGSVSDL -0.06885408 - 0.594494965 # # 4 A0A096MJB0 | Adcy9 | 613 | QGTASPGSVSDLAQT QGTASPGSVSDLAQT -0.29418446 - 0.002806832 # # 5 A0A096MJN4 | Sept4 | 49 | ILEPRPQSPDLCDDD ILEPRPQSPDLCDDD 0.09097982 - 0.078667811 # # 6 A0A096MJN4 | Sept4 | 81 | FCPPAPLSPSSRPRS FCPPAPLSPSSRPRS -0.12246661 - 0.078619010

2.2构建位置权重矩阵(pwm)

推断激酶活性的第一步,是建立位置权重矩阵(pwm)激酶。这可以通过使用buildPWM ()对于任何表包含集中激酶的底物肽序列。示例数据数据(phosphositeplus_human)表明构建PWM模式所需的格式。demosntration下面,我们使用上述取样的一个子集sample_pwm

生成pwm:

pwm < -buildPWM(sample_pwm)

这将构建PWM模式,访问脉宽调制PWM美元和列表衬底序列的数量用于构建每个PWM, accesiblePWM美元激酶。

查看激酶的列表并使用的序列数量:

头(脉宽调制美元激酶)

n # # 1 # #激酶PLK1 23 # # 7 CSNK2A1 60 # # 8 MAPK8 21 # # 9 AURKA 12 # # 10 MAPK3 27 # # 11 PRKACA 62

2.2.1想象主题

颜色图案氨基酸是根据他们的属性。color_scheme参数允许选项“lesk”或“美观”(默认)。轴是信息内容,测量部分。

CAMK2A_pwm < -buildPWM(CAMK2A_example)CAMK2A < -viewPWM(CAMK2A_pwmwhich_pwm =“CAMK2A”,view_pwm =真正的,color_scheme =“美观”)

2.3分数PWM与肽序列

接下来,我们将使用PWM生成模型,脉宽调制,识别匹配annotated_data表,使用打扫干净了cleanAnnotation ()以上。“scoreSequences支持多核处理,参见下面的例子为工人的数量设置为4。scoreSequences画了一个随机背景默认大小n = 1000。推荐使用set.seed ()之前调用scoreSequences如果你想复制你的结果。访问帮助文件,这解释了所有的参数,类型? scoreSequences‘到控制台。

#作为控制多核处理的一个例子#加载BiocParallel库图书馆(BiocParallel)#最后设置/注册核使用的数量注册(SnowParam(工人=4))#设置种子可重复的结果set.seed(1234年)分数< -scoreSequences(input_data =annotated_data,pwm_in =脉宽调制,n =One hundred.)

的输出分数透明和可访问。然而这些主要中间表获取摇摆的分数。分数是一个简单的列表对象,包含肽分数吗(分数peptide_scores美元)肽的假定值的分数(分数peptide_p美元)和背景肽用于分数的意义(成绩背景美元)再现性(即背景可以保存和再现性重用)。

总之,scoreSequences ()分数每个输入序列匹配所有pwm提供使用“buildPWM ()并生成假定值的分数。这实际上是一个大型的网络kinase-substrate边缘尺寸激酶,k衬底,年代。

2.4预测使用swing激酶活性()

在建立了kinase-substrate网络,摇摆不定的()然后整合kinase-substrate预测,此处则褶皱变化的方向和意义来评估当地kinase-substrate网络的连接(或摇摆)。最后得分是一个正常化的激酶活性预测加权的基质用于PWM模式和当地的肽kinase-substrate网络。默认情况下,这将交换网络1000倍(在这里我们使用10例如目的)。推荐使用set.seed ()之前调用摇摆不定的如果你想复制你的结果。“秋千”“支持多核处理,参见下面的例子工人的数量设置为4。

# BiocParallel库加载后,设置/注册核使用的数量注册(SnowParam(工人=4))#设置种子可重复的结果set.seed(1234年)swing_out < -摇摆不定的(input_data =annotated_data,pwm_in =脉宽调制,pwm_scores =分数,排列=10)#这将产生两个表,一个是网络使用例如Cytoscape,另一个是分数。访问的分数:头(swing_out美元分数)

# #激酶pos否定所有pk nk swing_raw n swing p_greater # # 2 AKT1 4 1 5 19 0.8000000 0.2000000 19.726764 1.6151652 0.09090909 # # 5 AURKB 4 1 5 10 0.8000000 0.2000000 15.426556 1.2855635 0.09090909 # # 10 CHEK1 3 1 4 12 0.7500000 0.2500000 11.364062 0.9741821 - 0.18181818 # # 12 CSNK2A1 60 4 4 8 0.5000000 0.5000000 0.000000 0.1031511 - 0.18181818 # # 4 AURKA 4 2 6 12 0.6666667 0.3333333 9.266994 0.8134463 - 0.27272727 # # 6 CAMK2A 16 4 3 7 0.5714286 0.4285714 4.660630 1.0000000 0.4603784 - 0.27272727 # # p_less # # 2 # 0.9090909 # 5 # 0.9090909 # 10 # # 12 0.8181818 0.6363636 # 0.8181818 # 4 # # 6

这个表显示的输出如下:

激酶:激酶
pos数量:积极调节激酶基质
负的数量:消极的调节激酶基质
所有:调节激酶基质的总数
pk所占比例:积极调节激酶基质
nk所占比例:消极的调节激酶基质
swing_raw:生-加权分数
n:subtrate序列的数量激酶脉宽调制
摇摆不定的:正常(z分数转换)——加权分数
p_greater:观察swing得分的概率大于
p_less:观察概率得分不到

请注意,pos,负的和所有包括pseudo-count,设置?摇摆,请注意pseudo_count。

* * *见Engholm-Keller et al。(2019)方法描述* * *

3KinSwingR算法

* * * KinSwing算法的完整描述,看到的Engholm-Keller et al。(2019)* * *

简而言之:

buildPWM ()生成位置权重矩阵(pwm)激酶基于已知的衬底序列(方程1),其中每个激酶,\ (K \)的,被认为是对数似然比的平均频率氨基酸,\ \ (),在每一个位置,\ (p \)背景,除以频率,\ (B \)(\ (C \)是一个伪计数,以避免日志零):

方程1:\ (PWM_ {(a, p)} =日志((1 / n∑^ n_ {i = 1} K_i) + C) / B_a + C) \)

scoreSequences ()分数每个激酶,\ (K \),配基质\ (\),鉴于\ (S_{得分}=∑^ n_ {(i = 1)} f (a, p) \),对应于相应的氨基酸的总和,\ \ ()肽序列的长度,我\ \ ()从位置,\ (p \)的,\ (PWM_ {(a, p)} \)和\ (f (a, p) = PWM_{美联社}∈PWM_ {(a, p)} \)。观察的概率\ (S_score \)激酶,\ (K \)条件,确定一个随机抽样参考大小的分布\ (N \)序列\ (P (S_{得分}| R, N) \),在那里\ (R \)序列是决心要有一个检验统计量小于或等于\ (S_{得分}\):

方程2:\ (R =∑^ N_ {n = 1}我((S_{得分})n *≥(S_{得分})I) \)

摇摆不定的()phosphosite集成数据和kinase-substrate分数scoreSequences ()得分激酶活动基于网络本地连接,\ (swing_k \)(3)方程。\ (swing_k \)是积极的比例加权的产品,\ (Pos_k \)和消极的,\ (Neg_k \)、网络边缘的产品逻辑函数(这里描述:Engholm-Keller et al。(2019))考虑到本地网络的规模,\ (C_k \),\ (n \)基质激酶,\ (K \):

方程3:\ (swing_k = log_2 ((Pos_k + c) / (Neg_k + c)) * log_2 (C_k) * log_2 (S_n) \)

\ (swing_k \)转换为z分数,\ (Z (swing_k) \),在那里,\(μ\)是指,\(σ\),摆动成绩的标准差,从而允许预测激酶活性的比较在多个时间点和/或条件。

KinSwingR地址”的问题可能是如何观察激酶的预测活动,\ (K \)通过随机的机会吗?“通过计算\ (swing_k \)鉴于\ (N \)排列激酶节点的标签,\ (K \)基板,\ (\)总网络,\ (M_ {ks} \)。因此,观察的概率\ (swing_k \)是有条件的,这个排列参考分布、大小、\ (N \)(公式2)。这是为每个尾分布的计算,也就是说,积极的和消极的\ (swing_k \)分数。

引用

Engholm-Keller K *, AJ * Waardenberg, JA穆勒,小痛,RN费尔南多,JA亚瑟PJ罗宾逊,维迪特里希,我和S Schoch,格雷厄姆。2019。“活动依赖性突触前的时间剖面Phospho-Signalling揭示了持久的刺激之后的监管模式,“3月。https://doi.org/10.1371/journal.pbio.3000170。

从phosphoproteomics数据KinSwingR:预测激酶活性

阿什利·j·Waardenberg

最后修改:2019-04-25。编制:2022-04-26