电荷和水力学

图书馆(idpr)

背景

内在无序蛋白质(IDPs)的氨基酸组成和整体化学性质与有序蛋白质有明显不同。每种氨基酸都有独特的化学特征,可以是紧凑的结构,也可以是扩展的结构(Uversky, 2019)。促进紊乱的残基,即那些富含IDPs的残基,通常是亲水的、带电的或小残基。有序促进残基,即结构蛋白中富集的残基,趋向于脂肪族、疏水、芳香或形成三级结构(Uversky, 2013)。
因此,IDPs与有序蛋白在生物化学上存在明显差异。

Uversky, Gillespie, & Fink(2000)的研究表明,高净电荷和低平均亲水性都是idp的性质。一种解释是,高净电荷导致残基排斥力增加,导致结构扩展,而低疏水性将减少疏水相互作用,导致蛋白质堆积减少。当平均净电荷和平均比例水势被绘制时,idp在图上占据一个独特的区域。未折叠蛋白质和紧密蛋白质之间的屏障是:\[< r > = 2.785 < h > - 1.151 \]其中是绝对平均净电荷,是平均比例水(Uversky, Gillespie, & Fink, 2000)。

Uversky(2016)中显示了提到的电荷水力学图的另一个版本,其中显示的是平均净电荷,而不是绝对值。这就创建了两条截断线。一种是带正电的肽:\[< r > = 2.785 < h > - 1.151 \]另一个是带负电荷的缩氨酸:\[< r > = - 2.785 < h > + 1.151 \](Uversky, 2016)。

该图允许区分负蛋白和正蛋白,同时保留电荷-水关系图的信息。

此外,这可以用来识别蛋白质上的折叠区域。FoldIndex使用这个方程,并将变量设置为0,然后使用滑动窗口,得到的值将识别预测为折叠或展开的区域。\[Score = 2.785 - \lvert\rvert -1.151 \]当窗口具有负值(<0)时,序列被预测为无序。当窗口有一个正分数(>0)序列被预测为有序。Prilusky, J., Felder, C. E.等人(2005)对此进行了描述。

安装

idpr包可以通过以下代码行从Bioconductor安装。需要安装BiocManager软件包

# BiocManager::安装(“idpr”)

该包的最新版本可以用下面这行代码安装。需要安装devtools软件包。

# devtools: install_github(“wmm27 / idpr”)

方法

方法最初在Uversky, Gillespie, & Fink(2000)中描述。这里显示的计算是为了解释chargeHydropathyPlot()如何获得用于绘图的值,并在函数中自动完成。

平均比例水的计算方法是将Kyte和Doolittle的比例归一化,在0到1的范围内,Arg的水的比例为0,Ile的水的比例为1,由序列长度平均(Kyte和Doolittle, 1982;Uversky, 2016)。

净电荷由Henderson-Hasselbalch方程计算(Po & Senozan, 2001)。虽然没有一个统一的pKa值集,但等电点计算器在统一这些数据集方面做得很好(Kozlowski, 2016)。净电荷然后在序列长度上求平均值。

这两个值都绘制在电荷-水势图中,以确定一个或多个蛋白质在该空间中的位置。

计算例子

示例将使用智人TP53序列,从UniProt (UniProt Consortium 2019)获得,存储在idpr包为例。

第一部分是计算序列的平均比例水力学。这将对应于x轴上的值

第二个值是净电荷。设置平均值= TRUE将计算出的净电荷按序列长度平均。这将对应于y轴上的值。总净收费可以通过设置平均值为FALSE来计算。

chargeHydropathyFunction将自动计算这些值,并根据Uversky, Gillespie, & Fink (2000) / Uversky(2016)将其绘制为电荷-hydropathy空间中的一个点

由于返回了ggplot,用户可以将该plot分配给对象以修改外观和/或添加注释。这里显示的示例将标记返回图上的坐标。


使用chargeHydropathyPlot函数

上图显示了一个蛋白质的计算,但该函数可以接受多个序列。

下面的例子将使用高度相似的TP53序列,从UniProt (UniProt Consortium 2019)获得,存储在idpr包为例。

TP53_Sequences < -TP53Sequences打印(TP53_Sequences)# > P02340 | P53_MOUSE# >“MTAMEESQSDISLELPLSQETFSGLWKLLPPEDILPSPHCMDDLLLPQDVEEFFEGPSEALRVSGAPAAQDPVTETPGPVAPAPATPWPLSSFVPSQKTYQGNYGFHLGFLQSGTAKSVMCTYSPPLNKLFCQLAKTCPVQLWVSATPPAGSRVRAMAIYKKSQHMTEVVRRCPHHERCSDGDGLAPPQHLIRVEGNLYPEYLEDRQTFRHSVVVPYEPPEAGSEYTTIHYKYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRDSFEVRVCACPGRDRRTEEENFRKKEVLCPELPPGSAKRALPTCTSASPPQKKKPLDGEYFTLKIRGRKRFEMFRELNEALELKDAHATEESGDSRAHSSYLKTKKGQSTSRHKKTMVKKVGPDSD”# > P04637 | P53_HUMAN# >“MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD”# > P10361 | P53_RAT# >“MEDSQSDMSIELPLSQETFSCLWKLLPPDDILPTTATGSPNSMEDLFLPQDVAELLEGPEEALQVSAPAAQEPGTEAPAPVAPASATPWPLSSSVPSQKTYQGNYGFHLGFLQSGTAKSVMCTYSISLNKLFCQLAKTCPVQLWVTSTPPPGTRVRAMAIYKKSQHMTEVVRRCPHHERCSDGDGLAPPQHLIRVEGNPYAEYLDDRQTFRHSVVVPYEPPEVGSDYTTIHYKYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRDSFEVRVCACPGRDRRTEEENFRKKEEHCPELPPGSAKRALPTSTSSSPQQKKKPLDGEYFTLKIRGRERFEMFRELNEALELKDARAAEESGDSRAHSSYPKTKKGQSTSRHKKPMIKKVGPDSD”# > Q29537 | P53_CANLF# >“MEESQSELNIDPPLSQETFSELWNLLPENNVLSSELCPAVDELLLPESVVNWLDEDSDDAPRMPATSAPTAPGPAPSWPLSSSVPSPKTYPGTYGFRLGFLHSGTAKSVTWTYSPLLNKLFCQLAKTCPVQLWVSSPPPPNTCVRAMAIYKKSEFVTEVVRRCPHHERCSDSSDGLAPPQHLIRVEGNLRAKYLDDRNTFRHSVVVPYEPPEVGSDYTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNVLGRNSFEVRVCACPGRDRRTEEENFHKKGEPCPEPPPGSTKRALPPSTSSSPPQKKKPLDGEYFTLQIRGRERYEMFRNLNEALELKDAQSGKEPGGSRAHSSHLKAKKGQSTSRHKKLMFKREGLDSD”# > Q00366 | P53_MESAU# >“MEEPQSDLSIELPLSQETFSDLWKLLPPNNVLSTLPSSDSIEELFLSENVAGWLEDPGEALQGSAAAAAPAAPAAEDPVAETPAPVASAPATPWPLSSSVPSYKTYQGDYGFRLGFLHSGTAKSVTCTYSPSLNKLFCQLAKTCPVQLWVSSTPPPGTRVRAMAIYKKLQYMTEVVRRCPHHERSSEGDGLAPPQHLIRVEGNMHAEYLDDKQTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDPSGNLLGRNSFEVRICACPGRDRRTEEKNFQKKGEPCPELPPKSAKRALPTNTSSSPQPKRKTLDGEYFTLKIRGQERFKMFQELNEALELKDAQALKASEDSGAHSSYLKSKKGQSASRLKKLMIKREGPDSD”# > O09185 | P53_CRIGR# >“MEEPQSDLSIELPLSQETFSDLWKLLPPNNVLSTLPSSDSIEELFLSENVTGWLEDSGGALQGVAAAAASTAEDPVTETPAPVASAPATPWPLSSSVPSYKTYQGDYGFRLGFLHSGTAKSVTCTYSPSLNKLFCQLAKTCPVQLWVNSTPPPGTRVRAMAIYKKLQYMTEVVRRCPHHERSSEGDSLAPPQHLIRVEGNLHAEYLDDKQTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDPSGNLLGRNSFEVRICACPGRDRRTEEKNFQKKGEPCPELPPKSAKRALPTNTSSSPPPKKKTLDGEYFTLKIRGHERFKMFQELNEALELKDAQASKGSEDNGAHSSYLKSKKGQSASRLKKLMIKREGPDSD”# > Q9TTA1 | P53_TUPBE# >“MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPDLNKLFCQLAKTCPVQLWVDSAPPPGTRVRAMAIYKQSQYVTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLHAEYSDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGKLLGRNSFEVRICACPGRDRRTEEENFRKKGESCPKLPTGSIKRALPTGSSSSPQPKKKPLDEEYFTLQIRGRERFEMLREINEALELKDAMAGKESAGSRAHSSHLKSKKGQSTSRHRKLMFKTEGPDSD”# > Q95330 | P53_RABIT# >“MEESQSDLSLEPPLSQETFSDLWKLLPENNLLTTSLNPPVDDLLSAEDVANWLNEDPEEGLRVPAAPAPEAPAPAAPALAAPAPATSWPLSSSVPSQKTYHGNYGFRLGFLHSGTAKSVTCTYSPCLNKLFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKKSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRAEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENFRKKGEPCPELPPGSSKRALPTTTTDSSPQTKKKPLDGEYFILKIRGRERFEMFRELNEALELKDAQAEKEPGGSRAHSSYLKAKKGQSTSRHKKPMFKREGPDSD”# > A0A2I2Y7Z8 | A0A2I2Y7Z8_GORGO# >“MDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPTLNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGRNAKHSPGDPDPPLSETFNLNICPYPAGKLELLKLSPCPCLCRQVTLMSFLFFLIFFYFRLYWGIIEPPKLHTFKVCSVMI”
gg < -chargeHydropathyPlot序列=TP53_Sequences,pKaSet =“IPC_protein”情节(gg)

由于它是一个ggplot,用户可以向绘图添加其他参数,如标签、自定义主题和其他受支持的特性。在“方法”中给出了一个例子。

如果您不希望使用IPC_protein pKa集,您可以将其更改为netCharge()所接受的任何值。

chargeHydropathyPlot序列=TP53_Sequences,pKaSet =“浮雕”#使用EMBOSS pKa设置

使用FoldIndexR预测折叠和展开窗口。

foldIndexR序列=HUMAN_P53,plotResults =真正的

Prilusky, J., Felder, c.e., et al.(2005)。

计算缩放水力学

平均比例水力学

meanScaledHydropathy用于计算序列的缩放水力学。详细信息请参见介绍和方法。

全球水疗法

scaledHydropathyGlobal用于匹配序列中每个残基的氨基酸序列的缩放hydropathy。

结果可以是匹配值的数据帧。它将生成一个有3列的数据帧。第一列是“Position”,表示提交序列中余数的数字位置。第二列为“AA”,表示氨基酸残留量为单个字母。第三列是“Hydropathy”,它表示该残基的缩放Hydropathy值,该值由函数匹配。

或者结果可以作为一个图返回

(这不是最美观的情节,所以一个序列地图从idpr建议在这种情况下进行可视化。)

当地的疏水性

scaledHydropathyLocal是一个使用滑动窗口计算序列的平均疏水性的函数。结果以数据帧或图的形式返回。

将缩放后的水力学与每个残差进行匹配,然后计算每个窗口的平均值。

这有助于识别蛋白质中高疏水性或低疏水性的区域。这也有助于识别idr。

结果可以作为窗口水力学评分的数据帧返回。它将生成一个有3列的数据帧。第一列是“Position”,表示提交序列中余数的数字位置。第二列是“Window”,它表示滑动窗口内用于计算的所有残差。“centerresidual”列指定氨基酸残基为位于窗口中心的单个字母,位于“Position”所指定的数字。最后,“WindowHydropathy”是“window”列中指定的残基的计算平均残基。

结果还可以返回一个图,显示沿着序列的每个窗口的水文分数。

窗口大小也可以通过" window "参数指定。这一定是个奇数

计算费用

净电荷

netCharge用于计算序列的净电荷。详细信息请参见介绍和方法。

设置平均值= TRUE将计算出的净电荷按序列长度平均(在方法中显示)。

netCharge依赖于Henderson-Hasselbalch方程(通过hendersonHasselbalch函数)。因此pH值和pKa是计算的关键。netCharge允许使用pH参数设置不同的pH值。

还有许多pKa集是预加载的idpr.引用本插图中使用的pKa数据集。请参阅netCharge或pKaData的文档idpr以获取可用pKa集的额外信息和引用。此外,关于pKa数据集的更多细节,请参阅Kozlowski(2016)。

或者,用户可以提供一个自定义pKa数据集。格式必须为数据帧,其中:第1列必须为残差的字符向量,第2列必须为pKa值的数字向量。如果有一个用户喜欢的数据集或如果有非大炮氨基酸,这可能是有帮助的。这里有一个例子,使用来自维基百科的pKa值(蛋白原氨基酸,n.d)。https://en.wikipedia.org/wiki/Proteinogenic_amino_acid#Chemical_properties

全球电荷分布

chargeCalculationGlobal是一个函数,用于计算序列中每个残基的电荷,独立于其他氨基酸。结果以数据帧(默认值)或图形的形式返回。

chargeCalculationGlobal接受与netCharge相同的pKa和pH参数。

结果可以返回每个残差的电荷数据帧

它将生成一个有3列的数据帧。第一列是“Position”,表示提交序列中余数的数字位置。第二列为“AA”,表示氨基酸残留量为单个字母。第三列为“电荷”,表示在指定pH值下残渣的计算电荷。

结果可以返回一个ggplot,显示电荷分布。

(这不是最美观的情节,所以一个序列地图从idpr建议在这种情况下进行可视化。)

这里的c端电荷为~ -2,因为函数默认情况下用剩余电荷聚合终端值。如果您希望将termini计算为单独的值,请使用sumTermini = FALSE。这将在数据帧中增加2个残基即" NH3 "和" COO "

如果你希望完全忽略计算中的termini,设置includeTermini = FALSE。

当地的费用

chargeCalculationLocal是一个使用滑动窗口计算序列电荷的函数。结果以数据帧(默认值)或图形的形式返回。

chargeCalculationLocal接受与netCharge相同的pKa和pH参数。

与chargecalculationonglobal不同,chargeCalculationLocal函数不考虑计算的终端。

结果可以作为窗口水力学评分的数据帧返回。它将生成一个有4列的数据帧。第一列是“Position”,表示提交序列中余数的数字位置。“CenterResidue”列将氨基酸残基指定为位于窗口中心的单个字母,位于“Position”指定的数字处。“窗口”列包含滑动窗口内用于计算电荷的所有残差。最后,“windowCharge”是“Window”列中指定的残差的计算平均电荷。

或者,结果可以作为每个窗口的电荷图返回。

窗口大小也可以通过" window "参数指定。这一定是个奇数

参考文献

包使用

引用

参考文献

联合,t.u.(2018)。UniProt:全球蛋白质知识中心。核酸研究,47(D1), D506-D515。doi: 10.1093 / nar / gky1049

科兹洛夫斯基,l.p.(2016)。等电点计算器。生物学报,11(1),55。doi: 10.1186 / s13062 - 016 - 0159 - 9

凯特,J.和杜立特,r.f.(1982)。一种显示蛋白质水解特性的简单方法。分子生物学杂志,37(1),37 - 37。

波,H. N. &塞诺赞,N.(2001)。Henderson-Hasselbalch方程:它的历史和局限性。化学教育学报,78(11),1499。

Prilusky, J., Felder, c.e., et al.(2005)。FoldIndex:一个简单的工具,预测一个给定的蛋白质序列是否内在展开。生物信息学,21(16),3435-3438。

蛋白质原氨基酸。(无日期)。在维基百科。检索时间为2020年7月12日。https://en.wikipedia.org/wiki/Proteinogenic_amino_acid#Chemical_properties

赖斯,P.,朗登,I., &布利斯比,A.(2000)。EMBOSS:欧洲分子生物学开放软件套件。遗传学趋势,16(6),276-277。doi: 10.1016 / s0168 - 9525 (00) 02024 - 2

Uversky, v.n.(2013)。15年的蛋白质内在失调:生物学仍在等待物理学。中国生物工程学报,22(6),693-724。doi: 10.1002 / pro.2261

Uversky, v.n.(2016)。内在无序的悖论和奇迹:简单中的复杂。自然科学进展,4(1),e1135015。doi: 10.1080 / 21690707.2015.1135015

Uversky, V. N.(2019)。内在无序蛋白质及其“神秘”(元)物理。物理前沿,7(10)。doi: 10.3389 / fphy.2019.00010

乌沃斯基,V. N.,吉莱斯皮,J. R.,芬克,A. L.(2000)。为什么“原生展开”蛋白质在生理条件下是非结构化的?蛋白质:结构,功能和生物信息学,41(3),415-427。41:3 https://doi.org/10.1002/1097 - 0134 (20001115)< 415:: AID-PROT130 > 3.0.CO; 2 - 7日

额外的信息

R版本

系统信息

在出版物中引用R使用:

R核心团队(2022年)。R:用于统计计算的语言和环境。R统计计算基金会,维也纳,奥地利。URLhttps://www.R-project.org/

LaTeX用户的BibTeX条目是

@Manual{,标题= {R:统计计算语言和环境},作者= {{R核心团队}},组织= {R统计计算基金会},地址={奥地利维也纳},年份= {2022},url = {https://www.R-project.org/}},

我们投入了大量的时间和精力来创建R,请在使用它进行数据分析时引用它。参见' citation(" pkgname ") '引用R包。