本文档提供简短的教程qPLEXanalyzerpackage是一个具有多种功能的工具包,用于qPLEX-RIME蛋白质组学数据的统计分析(参见qPLEXanalyzer ?
在R提示符下查看简要概述)。qPLEX-RIME方法将RIME方法与多重TMT化学等压标记相结合,用于研究染色质相关蛋白复合物的动力学。该包也可用于等压标记(TMT或iTRAQ)的总蛋白质组分析。
导入定量数据集:通过MaxQuant、Proteome Discoverer或任何其他蛋白质组学软件生成的预处理定量数据集,由具有相关特征的肽强度以及样本元数据信息组成qPLEXanalyzer.
质量控制:计算并显示定量数据集的质量控制统计图。
数据归一化:分位数归一化,中心趋势缩放和基于线性回归的归一化。
肽强度聚合成蛋白质强度
差异统计分析:limma基于分析鉴定差异丰度蛋白。
MSnbase(Gatto L 2012, n.d.)Laurent Gatto的软件包提供了促进基于ms的蛋白质组学数据的可重复性分析的方法。的MSnSet类的MSnbase提供了存储定量质谱蛋白质组数据和实验元数据的体系结构。在qPLEXanalyzer,我们将预处理的定量蛋白质组数据存储在这个标准化对象中。的convertToMSnset
函数创建MSnSet对象从多肽/蛋白质强度的定量数据集中获取。该数据集必须包含在所有样本中具有高置信度的肽。
默认输入数据集是来自MaxQuant, Proteome Discoverer或任何其他蛋白质组学软件的预处理肽强度convertToMSnset ?
详情请按R键)。只有与蛋白质唯一匹配的肽才能作为输入。或者,通过聚合肽TMT强度的蛋白质水平定量也可以用作输入。在一个或多个样品中缺失值的肽/蛋白强度可以被排除或包括在MSnSet对象。中保留缺失的值MSnSet对象中提供的方法,这些方法必须由用户定义的方法或MSnbase包中。的下游功能qPLEXanalyzer中不缺值的矩阵MSnSet对象。
下面显示的示例数据集来自MCF7细胞中的ER qPLEX-RIME实验,该实验是为了比较两种不同的细胞交联方式:DSG/甲醛(双)或甲醛单独(单)。它由每个条件的4个生物重复以及从每组重复中汇集的2个IgG样本组成。
MSnset_data < -convertToMSnset(exp2_Xlink$强度,元数据=exp2_Xlink$元数据,indExpData =c(7:16),序列=2,登记入册=6)MSnset_data
## MSnSet (storageMode: lockedEnvironment) ## assayData: 12355个特征,10个样本##元素名称:exprs ## protocolData: none ##表型数据## sampleNames: FA。rep01足总。rep02……DSG.FA.IgG (10 total) ## varLabels:Grp (5 total) ## varMetadata: labelDescription ## featureData ## featurename: peptide_1 peptide_2…peptide_12355 (12355 total) ## fvarLabels:置信序列…accessessions (6 total) ## fvarMetadata: labelDescription ##实验数据:使用'实验数据(对象)' ##注释:## - - -处理信息- - - ## MSnbase版本:2.22.0
一旦一个MSnSet对象创建后,可以使用各种描述性统计方法来检查数据集的质量。
的intensityPlot
函数生成肽强度分布图,有助于识别具有异常分布的样本。图1显示每个样品多肽/蛋白质的对数强度分布。一个离群样本DSG.FA。Rep01可以从这幅图中识别出来。代表低本底强度的IgG对照样品与其他样品相比,其强度分布曲线有移位/明显,不应视为异常值。
图1:TMT-10plex实验的原始强度密度图。
强度也可以通过箱形图的形式来查看intensityPlot
.图2显示每个样品多肽强度的分布。
图2:TMT-10plex实验的原始强度箱线图。
rliPlot
可用于可视化数据集中不需要的变化。它类似于为微阵列分析开发的相对对数表达式图(Gandolfo 2018).RLI图(图3)使用每种肽的MS强度或总结的蛋白质强度。
图3:TMT-10plex实验原始强度的RLI。
相关图可以由corrPlot
为了可视化组内和组间样本的线性关联水平。故事情节图4显示每个组内样本之间的高度相关性,但在其中一个组中也确定了一个异常样本(DSG.FA)。
图4:多肽强度的相关图
层次聚类可以由hierarchicalPlot
要制作显示样本间等级关系的树状图(图5).横轴表示样本之间的不相似性(通过欧几里得距离测量):相似的样本出现在相同的分支上。颜色与群体相对应。如果数据集包含零,则有必要在强度上加上一个小值(例如0.01),以避免在生成树状图时出现错误。
图5:肽强度的聚类图
PCA分析的前两个维度的缩放负载的可视化表示可以通过pcaPlot
(图6).样本间的协方差近似于样本间的内积。高度相关的样本会相互靠近。样品可以按名称、复制、分组或实验运行进行标记,以便识别潜在的批量效应。
图6:肽强度的主成分分析图
显示被捕获的多肽所覆盖的诱饵蛋白区域的图可以使用coveragePlot
(图7).该图显示了已在蛋白质序列中以高置信度识别的多肽的位置和相应的覆盖率。这为评估qPLEX-RIME方法中免疫沉淀方法的效率提供了一种手段。为了更好地评估拉下实验,我们可以将观察到的诱饵蛋白覆盖率与已知切割位点预测的肽的理论覆盖率进行比较。
mySequenceFile < -执行(“extdata”,“P03372.fasta”,包=“qPLEXanalyzer”)coveragePlot(MSnset_dataProteinID =“P03372”,ProteinName =“ESR1”,fastaFile =mySequenceFile)
图7:肽序列覆盖图
数据可以归一化,以去除实验伪象(例如样品加载变异性的差异,系统变异),以便将生物学变异与实验过程中引入的变异分开。这将改善下游统计分析,以获得更准确的比较。根据不同的数据,可以使用不同的归一化方法:
分位数normalizeQuantiles
:肽强度大致被其丰度的顺序统计所取代。下面的关键假设是,不同群体之间只有很少的变化。这种归一化技术的作用是使来自不同样本的强度分布在统计性质方面完全相同。这是最强的归一化方法,应该谨慎使用,因为它会消除样本之间的大部分差异。我们建议仅将其用于总蛋白质组,而不是qPLEX-RIME数据。
意思是/中值比例normalizeScaling
在这种归一化方法中,样本的中心趋势(平均值或中位数)是对齐的。计算每个样本的集中趋势并进行对数变换。比例因子是通过从每个集中趋势减去所有集中趋势的平均值来确定的。然后将原始强度除以比例因子得到标准化强度。
行缩放rowScaling
:在这种归一化方法中,每个肽/蛋白质强度除以其在所有样本上的强度的平均值/中位数,并进行log2转换。
为了验证其对数据集的影响,有必要在归一化前后检查强度分布图和PCA图。
在qPLEX-RIME数据中,IgG(或对照样品)应与诱饵蛋白下拉样品分开归一化。由于IgG样本代表低背景强度,其强度分布与诱饵下拉不同。因此,将两者归一化会导致对IgG强度的过度修正,从而导致组间差异的计算不准确。为此,我们提供groupScaling
,附加参数groupingColumn定义一个类别对样本进行分组,然后在每个组内独立地进行缩放。
如果不需要归一化,则跳过此步骤,转到肽聚合。
对于这个数据集,一个异常值样本被质量控制图识别出来,并从进一步的分析中移除。图8显示了各种归一化方法对肽强度分布的影响。
MSnset_data < -MSnset_data (,5]p1 < -intensityPlot(MSnset_datatitle =“不归一化”)MSnset_norm_q < -normalizeQuantiles(MSnset_data)p2 < -intensityPlot(MSnset_norm_qtitle =“分位数”)MSnset_norm_ns < -normalizeScaling(MSnset_datascalingFunction =中位数)p3 < -intensityPlot(MSnset_norm_nstitle =“缩放”)MSnset_norm_gs < -groupScaling(MSnset_datascalingFunction =值,groupingColumn =“SampleGroup”)p4 < -intensityPlot(MSnset_norm_gstitle =“集团内部扩展”)grid.arrange(p1, p2, p3, p4,ncol =2,nrow =2)
图8:不同归一化方法下的肽强度分布
定量数据集可以包括肽或蛋白质强度。如果数据集包含多肽信息,则可以将其聚合为蛋白质强度,以便进一步分析。
必须提供由唯一ID的蛋白质组成的注释文件。可以在与人类蛋白质的uniprot注释对应的包中找到一个示例文件。它由四列组成:“信息”、“基因”、“描述”和“基因符号”。列' Accessions '和' GeneSymbol '对于成功的下游分析是必须的,而其他两列是可选的。的UniProt.ws包提供了一种使用Uniprot蛋白质获取这些注释的方便方法,如下节所示。的summarizeIntensities
函数期望使用这种格式的注释文件。
图书馆(UniProt.ws)图书馆(dplyr)蛋白质< -独特的(fData(MSnset_data)$登记入册)(1:10]列< -c(“入口名”,“PROTEIN-NAMES”,“基因”)hs < -UniProt.ws::UniProt.ws(taxId =9606)first_ten_anno < -UniProt.ws::选择(hs,蛋白质,列,“UNIPROTKB”)% > %as_tibble()% > %变异(GeneSymbol =gsub(“。*”,"",基因))% > %选择(登记入册=“UNIPROTKB”,基因=“入口名”,描述=“PROTEIN-NAMES”,GeneSymbol)% > %安排(到达)头(first_ten_anno)
## #小猫咪:基因描述基因符号## # ## # 1 P04264 K2C1_HUMAN Keratin, type II cytoskeleton 1 OS=Homo sap…KRT1 ## # 2 P05783 K1C18_HUMAN Keratin, type I cytoskeleton 18 OS=Homo sap…KRT18 ## 3 P14866 HNRPL_HUMAN Heterogeneous nuclear ribon核蛋白L O…HNRNPL ## 4 P35527 K1C9_HUMAN Keratin, type I cytoskeleton 9 OS=Homo sapi…KRT9 ## # 5 P35908 K22E_HUMAN Keratin, type I cytoskeleton 9 OS=Homo sapi…KRT9 ## # 5 P35908 K22E_HUMAN Keratin, type I cytoskeleton 18 OS=Homo sap…II型细胞骨架2表皮O…KRT2 ## 6 P39748 FEN1_HUMAN皮瓣内切酶1 OS=Homo sapiens OX=9606…FEN1
聚合可以通过计算原始肽强度或归一化肽强度的总和、平均值或中位数来进行。所选蛋白质的总结强度可以使用peptideIntensityPlot
.它绘制了所选蛋白质的所有多肽强度,以及所有样本的总结强度(图9).
peptideIntensityPlot(MSnset_datacombinedIntensities =MSnset_Pnorm,ProteinID =“P03372”,ProteinName =“ESR1”)
图9:总结蛋白强度
磷酸肽数据通常在肽水平而不是蛋白质水平进行分析。这可以通过对每个肽分别进行分析或将属于同一蛋白质的相同肽(有磷酸化修饰)合并为单一肽强度来实现。然后对这些合并的多肽进行下游分析。的mergePeptides
功能执行这种合并肽强度。
为了纠正免疫沉淀蛋白(在qPLEX-RIME中)对诱饵蛋白的潜在依赖性,在中可用线性回归方法qPLEXanalyzer.的regressIntensity
函数进行回归分析,其中饵料蛋白水平为自变量(x),其他每种蛋白质的分布为因变量(y)。y=ax+b线性模型的残差表示不受饵料蛋白含量驱动的蛋白质定量分布。
这种方法的优点是,对目标蛋白依赖性强的蛋白质会受到明显的校正,而对目标蛋白依赖性小的蛋白质则会受到轻微的校正。相比之下,如果使用标准校正因子,则对所有蛋白质的影响大小相同。回归分析应排除对照样品(如IgG)。的regressIntensity
函数还生成了应用此方法前后鱼饵与其他蛋白质之间的相关性图(图10).
下面显示的示例数据集来自在MCF7细胞中进行的ER qPLEX-RIME实验,以研究在4-羟他莫西芬(OHT)处理2h、6h和24h或单独使用载体(乙醇)处理后24h时ER复合物组装的动态。它由六个生物重复组成,每个条件横跨三个TMT实验,每个实验中有两个IgG模拟拉下样本。
数据(exp3_OHT_ESR1)MSnset_reg < -convertToMSnset(exp3_OHT_ESR1$intensities_qPLEX2,元数据=exp3_OHT_ESR1$metadata_qPLEX2,indExpData =c(7:16),序列=2,登记入册=6)MSnset_P < -summarizeIntensities(MSnset_regsummarizationFunction =和,注释=human_anno)MSnset_P < -rowScaling(MSnset_PscalingFunction =的意思)IgG_ind < -哪一个(pData(MSnset_P)$SampleGroup= =“免疫球蛋白”)Reg_data < -regressIntensity(MSnset_PcontrolInd =IgG_ind,ProteinId =“P03372”)
图10回归前后饵料蛋白与富集蛋白的相关性
用于鉴别差异调节或结合蛋白的统计分析使用limma(Ritchie et al. 2015).它使用线性模型在多因素设计实验的背景下评估差异表达。首先,为每个蛋白质拟合一个线性模型,其中模型包括每组变量和MS运行。然后,log2倍的变化估计比较使用computeDiffStats
.利用Benjamini-Hochberg方法对p值进行多次测试校正以控制错误发现率(FDR)。最后,getContrastResults
用于获得特定的对比结果。
qPLEX-RIME实验可以由IgG模拟样本组成,以区分非特异性结合。中的controlGroup参数getContrastResults
函数允许您指定此组(如IgG)。然后使用拟合线性模型中的平均强度来计算IgG与每组之间的log2倍变化。比较两组IgG对照的最大变化为log2倍controlLogFoldChange列。此信息可用于筛选非特定绑定。一个controlLogFoldChange可以使用多于1的过滤器来发现特定的交互者。
差异蛋白分析的结果可以可视化maVolPlot
函数。它绘制了各组间平均log2蛋白质强度到log2倍的变化。这可以实现快速可视化(图11组间蛋白质含量显著丰富。maVolPlot
也可用于查看火山图中的差异蛋白质结果(图12),将折叠变化的大小与统计学显著性水平进行比较。
对比< -c(DSG。FA_vs_FA =“DSG。发——发”)diffstats < -computeDiffStats(MSnset_Pnorm对比=对比)diffexp < -getContrastResults(diffstats对比=对比,controlGroup =“免疫球蛋白”)
图11:定量蛋白的MA图
图12:定量蛋白的火山图
## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。因此## ##随机数生成:## RNG:梅森- twister ## Normal:反转## Sample:舍入## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基础包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:## [1]dplyr_1.0.8 gridExtra_2.3 qPLEXanalyzer_1.14.0 ## [4] MSnbase_2.22.0 ProtGenerics_1.28.0 S4Vectors_0.34.0 ## [7] mzR_2.30.0 Rcpp_1.0.8.3 Biobase_2.56.0 ## [10] BiocGenerics_0.42.0 ## ##通过命名空间加载(且未附加):[1] bitops_1.0-7 doParallel_1.0.17 rcolorbrewer_1 .3 ## [4] GenomeInfoDb_1.32.0 tools_4.2.0 bslib_0.3.1 ## [7] utf8_1.2.2 R6_2.5.1 affyio_1.66.0 ## [10] DBI_1.1.2 colorspace_2.0-3 tidyselect_1.1.2 ## [13] compiler_4.2.0 preprocessCore_1.58.0 cli_3.3.0 ## [13] ggdendro_0.1.23 labeling_0.4.2 sass_0.4.1 ## [19] scales_1.2.0 readr_2.1.2 affy_1.74.0 ## [22] string_1 .4.0 digest_0.6.29 rmarkdown_2.14 ## [25] XVector_0.36.0 pkgconfig_2.0.3 htmltools_0.5.2 ## [28] highr_0.9 fastmap1.0[37] mzID_1.34.0 BiocParallel_1.30.0 rcurl_1 . 1.6 ## [40] magrittr_2.0.3 GenomeInfoDbData_1.2.8 MALDIquant_1.21 ## [43] munsell_0.5.0 fansi_1.0.3 MsCoreUtils_1.8.0 ## [46] lifecycle_1.0.1 vsn_3.64.0 stringi_1.7.6 ## [49] yaml_2.3.5 MASS_7.3-57 zlibbioc_1.42.0 ## [52] plyr_1.8.7 grid_4.2.0 parallel_2.0 ## [58] Biostrings_2.64.0hms_1.1.1 knitr_1.38 ## [61] pillar_1.7.0 codetools_0.2-18 XML_3.99-0.9 ## [64] glue_1.6.2 evaluate_0.15 pcaMethods_1.88.0 ## [67] BiocManager_1.30.17 vctrs_0.4.1 tzdb_0.3.0 ## [70] foreach_1.5.2 gtable_0.3.0 purrr_0.3.4 ## [73] tidyr_1.2.0 clue_0.3-60 assertthat_0.2.1 ## [76] ggplot2_3.3.5 xfun_0.30 ncdf4_1.19 ## [79] tibble_3.1.6 iterators_1.0.14 IRanges_2.30.0 ## [82] cluster_2.1.3 statmod_1.4.36 ellipsis_0.3.2
甘道夫,特伦斯·P.,卢克·C.和《速度》,2018。RLE图:可视化高维数据中不需要的变化《公共科学图书馆•综合》13(2): 1-9。https://doi.org/10.1371/journal.pone.0191629.
李国强,李国强。2012。MSnbase -一个R/Bioconductor包,用于等压标记质谱数据可视化、处理和定量。生物信息学28(288 - 289)。http://dx.doi.org/10.1093/bioinformatics/btr645.
Gatto L, Rainer J, Gibb S. n.d.“MSnbase,高效和优雅的基于r的原始质谱数据处理和可视化。”bioRxiv.https://doi.org/10.1101/2020.04.29.067868.
里奇,马修·E,贝琳达·菲普森,吴迪,胡一芳,查瑞蒂·w·劳,史伟,戈登·k·史密斯,2015。“limma为rna测序和微阵列研究的差异表达分析提供了动力。”核酸研究43 (7): e47-e47。https://doi.org/10.1093/nar/gkv007.