内容

1简介

定量化学蛋白质组学(Bantscheff M, 2012)和ms -细胞热转移分析(MS-CETSA) (Martinez MD, 2016)最近被应用于药物发现,以帮助理解治疗药物的选择性,在表型筛选竞争中进行目标反褶积,阐明药物的作用机制和评估药物再利用。(Schirle M, 2012)
许多计算工具已被开发用于质谱分析和蛋白质定量,例如Proteome Discoverer (https://www.thermofisher.com/)、MaxQuant (Cox J, 2008)或PEAKS (http://www1.bioinfor.com)进行去novo肽测序。然而,越来越多的基于MS的药物靶点反褶积方法产生的数据需要专用的下游分析平台,以促进结果的生物学解释。Doscheda包专注于定量化学蛋白质组学,用于确定来自整个细胞或组织裂解物的小分子的蛋白质相互作用谱。化学蛋白质组学包括基于逆向竞争的实验,结合定量质谱(如串联质量标签(TMT)或相对定量等压标签(iTRAQ)),通过结合亲和力对小分子-蛋白质相互作用进行排序。(Bantscheff M, 2012) Doscheda的设计目的是通过一个简单的管道和一个Shiny应用程序来促进化学蛋白质组学数据分析,该应用程序将允许具有有限计算背景的科学家进行自己的分析。

该软件包已开发作为原始Doscheda闪亮应用程序的补充。关于应用程序的详细文档,请访问:https://brunocontrino.github.io/DOSCHEDA_APP/

2ChemoProtSet类

主管道依赖于将所有数据、参数和其他变量存储在一个'ChemoProtSetS4类对象。该对象包含几个槽,它们将帮助以有序的方式划分所有必需的元素。槽可以包含几种不同的数据类型,如下所示

3.设置参数

将数据附加到ChemoProtSet实验对象1必须确保所有参数都是正确的。要做到这一点,可以使用setParamters为每个参数正确分配正确的值。有关完整的参数列表,请参阅ChemoProtSet类部分。

library(Doscheda) channelNames <- c("丰度..F1..126..Control.. "REP_1”、“丰富. . F1 . . 127 . .样品. .REP_1”、“丰富. . F1 . . 128 . .样品. .REP_1”、“丰富. . F1 . . 129 . .样品. .REP_1”、“丰富. . F1 . . 130 . .样品. .REP_1”、“丰富. . F1 . . 131 . .样品. .REP_1”、“丰富. . F2…126…控制. .REP_2”、“丰富…F2样本…127……REP_2”、“丰富…F2样本…128……REP_2”、“丰富…F2样本…129……REP_2”、“丰富…F2样本…130……REP_2", "Abundance..F2..131..Sample..REP_2") ex<- new('ChemoProtSet') ex<- setParameters(x = ex,chansVal = 6, repsVal = 2, dataTypeStr = 'intensity', modelTypeStr = 'linear', PDBool = FALSE,removePepsBool = FALSE,incPDofPDBool = FALSE, incgenefileool = FALSE, organmstr = ' h.s iens', pearsonThrshVal = 0.4)

4导入数据

要运行管道,必须将一个数据集附加到接口的输入槽位上ChemoProtSet对象。为此,可以将数据集读入全局R环境。用户应该确保数据属于' data.frame '类,然后在数据集上调用setData方法。

<- setData(x = ex, dataFrame = Doscheda::doschedaData, dataChannels = channelNames, accessionChannel = "Master.Protein. protein . "accessessions ", sequenceChannel = 'Sequence', qualityChannel = "Qvality. access "。PEP”)

4.1数据需求

为了成功地运行管道,数据必须具有特定的列,表1显示了基于分析类型所需的列。

输入
肽强度 肽质量评分,蛋白质来源,肽序列,强度(几列)
折叠变化/ Log折叠变化 蛋白质接入,蛋白质折叠变化(几列),基因id(可选),唯一肽

5强度或Fold-Changes

该软件包可以处理两种类型的化学蛋白质组学数据,肽强度或蛋白质强度的折叠变化。这两种数据类型可以通过大多数海量技术导出,该包已经过优化,以使用Proteome Discoverer 2.1的输出。对于Doscheda来说,使用两种数据类型的区别在于,如果有两个重复,则可以使用肽强度进行肽去除过程。如果使用折叠变化,这是不可用的。当使用肽强度时,管道将把数据转换为折叠变化,一旦每个蛋白质由其肽的总和总结,如在标准的蛋白质组发现者2.1输出中所见。

5.1肽删除过程

肽去除过程提供了一个选项,通过使用两个重复之间相同肽的皮尔逊相关性来去除复制之间不具有相似关系的肽,从而从数据中去除一些噪声。所做的主要假设是,在相同浓度的重复之间,肽强度具有线性关系。我们计算两个重复的肽段之间的皮尔逊相关性,并基于用户预先指定的相关系数(或R2阈值),任何不满足相关性截断的肽段将被丢弃。

如果与蛋白质相关的相同肽的数量的重复之间有差异,那么每个浓度的平均值,肽的数量较少的重复,将被用来平衡肽的数量,这样它们在两个重复之间是相同的。这将被用来计算两个重复之间的肽的皮尔逊相关性。

ex <- removepeptide (ex, removepepps = FALSE)

6规范的数据

用户可以选择归一化数据:用于归一化的主要方法是中位数归一化和黄土归一化。对象中传递以下字符串以选择规范化类型正常化论点的runNormalisation方法:“黄土”“中值”“没有”

“黄土”归一化是用loess.normalize在差异表达分析(Välikangas等,2016)中,与其他系统表现良好的方法相比,黄土中affy包的功能得到了证实。

中位数折叠变化归一化是我们在Doscheda中开发的一个简单函数,它计算输入数据的每列的中位数,并用于除以相应列的蛋白质折叠变化,从中得到中位数。中位数折叠变化归一化将每个条件缩放到其中位数,它将简单地移动数据,使中位数差异为0,它不会纠正任何非线性偏差。

7拟合模型

在Doscheda包中,用户可以拟合两种不同类型的模型:线性拟合或s型拟合。如果可能的话,建议将数据拟合成s型曲线,前提是有足够的浓度满足适当的蛋白质剂量反应。将模型与数据拟合的方法是fitModelChemoProtSet对象,该对象已使用上面的前面步骤设置。管道的最终结果将在finalData返回对象的槽位。

# #线性模型

线性模型可以在三种或三种以上浓度的实验中进行拟合,并将对数据进行以下回归拟合\(y = ax^{2} + bx + c\)我们计算\ (a, b, c \).对每种蛋白质拟合这个模型的原因是,我们可以通过观察其系数以及它们是否显著来了解蛋白质是如何在不同浓度下结合的。例如,如果一个蛋白质在中等浓度的结合中有一个峰值,我们就可以预期存在一个显著的二次系数。这个模型可以扩展到任何需要的浓度。

# # s形模型

目前可以在一个重复和超过5个浓度的实验中拟合s型曲线,这是因为我们需要一定的数据量来拟合数据。拟合s型曲线的原因是每个蛋白质都应该遵循剂量反应曲线,它应该具有s型形状。每一种蛋白质有四个估计参数。这些是,s型曲线的顶部,底部,RB50和s型曲线的斜率。人们可以通过观察其相关系数p值来分析每个参数的显著性。半最大残留结合(RB50)是衡量药物与蛋白质结合有效性的指标。因此,这种定量测量表明需要多少药物或小分子饱和结合到蛋白质的一半,并可用于比较药物-蛋白质的概况。RB50值通常表示为摩尔浓度,并在DOSCHEDA中的每个蛋白质的s型管道中计算。此外,根据Daub等人(Daub H, 2015),校正后的RB50对应于第二次孵育(上清)中富集的蛋白质与第一次孵育(DMSO或空白)中保留的蛋白质与亲和基质的比值(r)。这个下拉或损耗因子(r)的下拉可以计算出校正后的Kd。 In order to do this the user must provide a pull down of pull down column to their data. This can be done by settingincPDofPD = TRUEsetParameters方法,将导致在最终分析数据中校正RB50列。注意,这只有在应用s型模型时才可能。

这是一个包装器函数,它将执行整个Doscheda管道,而不需要用户执行上面解释的所有步骤,但是这没有相同的灵活性,并且将在每次运行时重新运行整个管道。

channelNames < - c(126年“F1丰富. . . . . .控制. .REP_1”、“丰富. . F1 . . 127 . .样品. .REP_1”、“丰富. . F1 . . 128 . .样品. .REP_1”、“丰富. . F1 . . 129 . .样品. .REP_1”、“丰富. . F1 . . 130 . .样品. .REP_1”、“丰富. . F1 . . 131 . .样品. .REP_1”、“丰富. . F2…126…控制. .REP_2”、“丰富…F2样本…127……REP_2”、“丰富…F2样本…128……REP_2”、“丰富…F2样本…129……REP_2”、“丰富…F2样本…130……REP_2", "Abundance..F2..131..Sample..REP_2") ex <- runDoscheda(dataFrame = doschedaData, dataChannels = channelNames, chandval = 6, repsVal = 2,dataTypeStr = 'intensity', modelTypeStr = 'linear',PDBool = FALSE,removePepsBool = FALSE, accessionChannel = "主蛋白质。accessessions ", sequenceChannel = 'Sequence',qualityChannel = "Qvality. access "。PEP", incpdofpdool = FALSE, incgenefileool = FALSE, organizmstr = 'H.sapiens', pearsonThrshVal = 0.4) runDoscheda()

# # makeReport

此函数用于为相关对象生成自定义报告。该报告将包括选定的一些关键参数以及上述数据的描述性图表。输出是一个HTML报告。

8策划的结果

一次fitModel已经运行了ChemoProtSet对象,可以实现Doscheda中的绘图函数来可视化分析结果。

# #地块

默认的绘图函数将给出以下绘图:-线性模型:每个模型系数的系数p值的分布

情节(特异)
##警告:使用' data.merged$P。Value_slope”是气馁。使用“P。Value_slope“# #。
##警告:使用' data.merged$P。Value_intercept”是气馁。使用# #“P。Value_intercept”代替。
##警告:使用' data.merged$P。Value_quadratic”是气馁。使用# #“P。Value_quadratic”代替。

# #箱线图

箱线图显示了分析中出现的所有渠道的四分位范围和中位数。

箱线图(特异)

# # corrPlot

该函数绘制了数据中所有通道之间的pearson相关性,给出了通道之间的相关性的概念。

corrPlot(特异)
##警告::par(usr):参数1没有指定图形参数##警告::par(usr):参数1没有指定图形参数##警告::par(usr):参数1没有指定图形参数##警告::par(usr):参数1没有指定图形参数##警告::par(usr):参数1没有指定图形参数##警告::par(usr):参数1没有指定图形参数##警告::par(usr):参数1没有指定图形参数##警告::par(usr):论点1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):论点1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):论点1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):论点1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):论点1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):论点1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1不名字图形在图形参数# #警告::par (usr):参数1没有命名图形形参##警告::par(usr):参数1没有命名图形形参##警告::par(usr):参数1没有命名图形形参##警告::par(usr):参数1没有命名图形形参

# # densityPlot

这个函数生成两个数据图:

# # pcaPlot

这个函数显示了数据的所有通道,显示在它们的前两个主成分中。这可能是数据质量的一个指标,例如,有一个孤立的点可能表示一个“坏”通道。

pcaPlot(特异)
# #警告:使用DTA as.numeric.t.su美元1. length.index……pca.x…1 . .是##气馁的。使用“as.numeric.t.su 1. length.index……pca.x…1 . .”代替。
# #警告:使用DTA as.numeric.t.su…1.美元length.index……pca.x…2 . .是##气馁的。使用“as.numeric.t.su…1. length.index……pca.x…2 . .”代替。

# # replicatePlot

这个函数画出了在同一浓度下两个副本之间的对比图。注意,浓度值与数据的列名一致。

replicatePlot(ex,conc = 0, repIndex1 = 1, repIndex2 = 2)

# # volcanoPlot

蛋白质的分布由其均值和标准偏差用p值着色,在线性模型中每个系数都有一个图。

volcanoPlot(特异)

# # meanSdPlot

这张图显示了每个蛋白质的排序平均值,并以10%的窗口大小计算了一个中位数。这有助于可视化方差是否恒定。

meanSdPlot(特异)

9例子

为了补充这套资料,编制了一套编造的数据。这个示例应该是管道的“最长”版本。也就是说,它使用肽强度,因此需要总结这些强度。的doschedaData在这个小插图中使用,可以通过阅读下面的例子看到所需的所有参数。

channelNames < - c(126年“F1丰富. . . . . .控制. .REP_1”、“丰富. . F1 . . 127 . .样品. .REP_1”、“丰富. . F1 . . 128 . .样品. .REP_1”、“丰富. . F1 . . 129 . .样品. .REP_1”、“丰富. . F1 . . 130 . .样品. .REP_1”、“丰富. . F1 . . 131 . .样品. .REP_1”、“丰富. . F2…126…控制. .REP_2”、“丰富…F2样本…127……REP_2”、“丰富…F2样本…128……REP_2”、“丰富…F2样本…129……REP_2”、“丰富…F2样本…130……REP_2", "Abundance..F2..131..Sample..REP_2") ex<- new('ChemoProtSet') ex<- setParameters(x = ex, chandval = 6, repsVal = 2,dataTypeStr = 'intensity', modelTypeStr = 'linear',PDBool = FALSE,removePepsBool = FALSE, incPDofPDBool = FALSE, incgenefileool = FALSE, organizmstr = 'H.sapiens', pearsonThrshVal = 0.4) ex<- setData(x = ex, dataFrame = doschedaData, dataChannels = channelNames, accessionChannel = "主.蛋白。accessessions ", sequenceChannel = 'Sequence', qualityChannel = "Qvality. access "。PEP”)ex <- removepeptide (ex, removepepps = FALSE)ex <- runNormalisation(ex) ex <- fitModel(ex) ex

10闪闪发光的应用

通过运行doschedaApp ()包所基于的原始闪亮的应用程序。如欲查阅有关申请的详细资料,请浏览:https://brunocontrino.github.io/DOSCHEDA_APP/

11参考文献

M.班切夫,Lemeer, M.萨维茨基,M.和B.库斯特,2012。蛋白质组学中的定量质谱:从2007年到现在的关键回顾更新。分析和生物分析化学, pp.1-27。

马丁内斯·莫利纳,D.和诺德隆德,P., 2016。细胞热位移测定法:一种新的生物物理测定法,用于原位药物靶点接合和机制生物标志物研究。药理学和毒理学年度回顾56岁的pp.141 - 161。

席勒和詹金斯,j.l., 2016。在表型药物发现中确定复合药效靶点。药物发现今天21 (1) pp.82 - 89。

考克斯(J.)和曼(M.), 2008。MaxQuant能够实现高肽识别率,个性化ppb范围的质量准确性和蛋白质组范围的蛋白质定量。自然生物技术26日(12)pp.1367 - 1372。

M.班切夫,Lemeer, M.萨维茨基,M.和B.库斯特,2012。蛋白质组学中的定量质谱:从2007年到现在的关键回顾更新。分析和生物分析化学, pp.1-27。

泰贝,A.,克拉姆默,M.,斯格哈特,S.,沙布,C.和多布,H., 2015。无标签和超SILAC定量在蛋白质组表达分析中的系统评价。快速通信与质谱分析,29(9),pp.795-801。

Välikangas, T., Suomi, T.和Elo, L.L., 2016。定量无标签蛋白质组学规范化方法的系统评价。生物信息学简介,p.bbw095。