MSstatsTMT:一种在基于鸟枪质谱的蛋白质组学实验中使用串联质量标签(TMT)标记进行蛋白质显著性分析的包

1.用于不同肽量化工具的转换器

MSstatsTMT执行统计分析步骤，即肽鉴定和定量。因此，MSstatsTMT的输入是其他软件工具(例如蛋白质组发现者，MaxQuant等等)，读取原始光谱文件，识别和量化肽离子。在MSstatsTMT中使用的首选数据结构是。csv文件长格式至少有9列，表示以下变量:ProteinName，PeptideSequence，负责，PSM，通道，条件，BioReplicate，混合物，强度．变量名是固定的，但不区分大小写。

#> Q9NSD9 [K]. aagasdvvlyk。[I] 2 [K].阿加斯登。(我)_2 Mixture1# bbb 2 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1#> 3 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1# 4q9nsd9 [K].上海。[I] 2 [K].阿加斯登。(我)_2 Mixture1# 2b7 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1# bq6 Q9NSD9 [K].阿加斯基。[I] 2 [K].阿加斯登。(我)_2 Mixture1运行通道#> 11 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 126#> 2 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 3 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127N #> 4 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 128C #> 5 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 128N #> 6 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 129C #> BioReplicate Condition Intensity #> 1 Norm Norm 23398.14 #> 2 0.125 0.125 22387.63 #> 3 0.667 0.667 17754.91 #> 4 1 1 19640.59 #> 5 0.5 0.5 20048.57 #> 6 0.5 0.5 19188.13

PDtoMSstatsTMTFormat ()

预处理来自Proteome Discoverer的PSM数据，并将其转换为MSstatsTMT所需的输入格式。

参数

输入: Proteome discover PSM输出的数据名。阅读PSM表。
注释:包含列的数据帧运行，分数，TechRepMixture，通道，条件，BioReplicate，混合物．
which.proteinid:使用蛋白质。登记入册(默认)列为蛋白质名称。Master.Protein.Accessions可以代替。
useNumProteinsColumn: true(默认)通过PSM表中#蛋白质列的信息删除共享肽。
useUniquePeptide: TRUE(默认值)删除分配给多个蛋白质的肽。我们假设每种蛋白质使用唯一的肽。
rmPSM_withfewMea_withinRun:仅适用于rmPSM_withMissing_withinRun = FALSE。TRUE(默认)将删除在每个Run中有1或2个测量的特性。
removeProtein_with1Peptide: TRUE会去除只有1个肽和电荷的蛋白质。默认为FALSE。
summaryforMultipleRows: sum(默认值)或max -当某一PSM在某一次运行中有多个测量值时，选择具有最大和或最大值的PSM。

例子

#读取PD PSM表#生。pd < -read.delim("161117_SILAC_HeLa_UPS1_TMT10_5Mixtures_3TechRep_UPSdB_Multiconsensus_PD22_Intensity_PSMs.txt")头(raw.pd)#>检查信心识别。节点PSM。模棱两可#> 1:虚假的高吉祥物(O4)明确#> 2:虚假的高吉祥物(K2)明确#> 3:虚假的高吉祥物(K2)明确#> 4:假高吉祥物(F2)选中#> 5:虚假的高吉祥物(K2)明确#> 6:虚假的高吉祥物(K2)明确# >注释。序列#> 1: [K]. gfqqilageydhlpeqafymvgpieeavak .[A]#> 2: [R]. qypwgvaevengehcdftilr .[N]#> 3: [R]. dkpsvepveeydydk .[E]#> 4: [R]. hehqvlmr .[Q]# bbb4: [R]. dltlwtadnageeggeapqepqs .[-]#> 6: [R]. alvaigthdldtlsgpftytak .[R]#>修改标记#> 1: N-Term(TMT6plex);K30 TMT6plex NA#> 2: N-Term(TMT6plex);C15 (Carbamidomethyl);一下R21(标签:13 c (6) 15 n (4)) NA#> 3: N-Term(TMT6plex);K2(标签);K17 NA(标签)#> 4: N-Term(TMT6plex);M8(氧化);R9机型(标签:13 c (6) 15 n (4)) NA#> 5: N-Term(TMT6plex) NA#> 6: N-Term(TMT6plex);K22 NA(标签)# > X . .蛋白质。组X.蛋白质master .蛋白质#> 1: 1 p06576#> 2: 1 1 q16181#> 3: 1 q9y450#> 4: 1 1 q15233#> 5:11 p31947#> 6: 1 q9nsd9# > Master.Protein.Descriptions#> 1: ATP合酶亚基β，线粒体OS=智人GN=ATP5B PE=1 SV=3#> 2: Septin-7 OS=智人GN=SEPT7 PE=1 SV=2#> 3: hbs1样蛋白OS=智人GN=HBS1L PE=1 SV=1#> 4:非pou结构域含八聚体结合蛋白OS=智人GN=NONO PE=1 SV=4#> 5:14-3-3蛋白质sigma OS=智人GN=SFN PE=1 SV=1#> 6:苯丙氨酸-tRNA连接酶β亚基OS=智人GN=FARSB PE=1 SV=3# >蛋白质。登记入册#> 1: p06576#> 2: q16181#> 3: q9y450#> 4: q15233#> 5: p31947#> 6: q9nsd9# >蛋白质。描述#> 1: ATP合酶亚基β，线粒体OS=智人GN=ATP5B PE=1 SV=3#> 2: Septin-7 OS=智人GN=SEPT7 PE=1 SV=2#> 3: hbs1样蛋白OS=智人GN=HBS1L PE=1 SV=1#> 4:非pou结构域含八聚体结合蛋白OS=智人GN=NONO PE=1 SV=4#> 5:14-3-3蛋白质sigma OS=智人GN=SFN PE=1 SV=1#> 6:苯丙氨酸-tRNA连接酶β亚基OS=智人GN=FARSB PE=1 SV=3# > X . .错过了。DeltaScore DeltaCn Rank Search.Engine.Rank#> 1: 0 3 1.0000 0 1 1#> 2: 0 3 1.0000 0 1 1#> 3: 1 3 0.9730 0 1 1#> 4: 0 4 0.5250 0 1 1#> 5: 0 3 1.0000 0 1 1#> 6: 0 3 0.9783 0 1 1# > m.z…哒。MH……哒。西奥。MH……哒。DeltaM . . ppm。Deltam.z…哒。激活。类型#> 1: 1270.3249 3808.960 3808.966 -1.51 -0.00192 cid#> 2: 920.4493 2759.333 2759.332 0.31 0.00028 cid#> 3: 920.1605 2758.467 2758.461 2.08 0.00192 cid#> 4: 359.6898 1435.737 1435.738 -0.04 -0.00002 cid#> 5: 920.0943 2758.268 2758.264 1.53 0.00141 cid#> 6: 919.8502 2757.536 2757.532 1.48 0.00136 cid#> ms .订单隔离。干扰....Average.Reporter.S.N#> 1: ms2 47.955590 8.7#> 2: ms2 9.377507 8.1#> 3: ms2 38.317050 17.8#> 4: ms2 21.390040 36.5#> 5: ms2 0.000000 16.7#> 6: ms2 30.619960 26.7# > Ion.Inject.Time…女士。RT…分钟。第一。扫描#> 1: 50.000 212.2487 112815#> 2: 3.242 164.7507 87392#> 3: 13.596 143.4534 74786#> 4: 50.000 21.6426 6458#> 5: 6.723 174.1863 92950#> 6: 8.958 176.4863 94294# >频谱。文件的文件。ID丰富. . 126#> 1: 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_03。原始F1 2548.326#> 2: 161117_SILAC_HeLa_UPS1_TMT10_Mixture3_03。raw F5 22861.765#> 3: 161117_SILAC_HeLa_UPS1_TMT10_Mixture3_03。raw F5 25504.083#> 4: 161117_SILAC_HeLa_UPS1_TMT10_Mixture4_02。raw F10 13493.228#> 5: 161117_SILAC_HeLa_UPS1_TMT10_Mixture3_03。raw F5 64582.786#> 6: 161117_SILAC_HeLa_UPS1_TMT10_Mixture3_03。raw F5 35404.709# >丰富. .127N Abundance..127C Abundance..128N Abundance..128C#> 1: 3231.929 2760.839 4111.639 3127.254#> 2: 25817.946 23349.498 29449.609 25995.929#> 3: 27740.450 25144.974 25754.579 29923.176#> 4: 14674.490 11187.900 12831.495 13839.426#> 5: 50576.417 47126.037 56285.129 46257.310#> 6: 31905.852 30993.941 36854.351 37506.001# >丰富. .129N Abundance..129C Abundance..130N Abundance..130C#> 1: 1874.163 2831.423 2298.401 3798.876#> 2: 22955.769 30578.971 30660.488 38728.853#> 3: 34097.637 31650.255 27632.692 23886.881#> 4: 12441.353 13450.885 14777.844 13039.995#> 5: 52634.885 49716.850 60660.574 55830.488#> 6: 25703.444 38626.598 35447.942 33788.409# >丰富. . 131全。信息离子。分数的身份。严格的身份。放松#> 1: 3739.067 na 90 28 21#> 2: 25047.280 na 76 24 17#> 3: 35331.092 na 74 30 23#> 4: 12057.121 na 40 25 18#> 5: 40280.577 na 38 21 14#> 6: 32031.516 na 46 29 22# >期望。Value Percolator.q.Value Percolator。鼓舞士气的#> 1: 7.038672e-09 0 1.396e-05#> 2: 6.298627e-08 0 3.349e-07#> 3: 4.318385e-07 0 9.922e-07#> 4: 3.351211e-04 0 1.175e-04#> 5: 2.152501e-04 0 1.383e-05#> 6: 2.060469e-04 0 7.198e-05#读取注释，包括每次运行和通道的条件和生物复制。#用户应该创建这个注释文件。它不是Proteome Discoverer的输出。#注释。pd < -read.csv(file="PD_Annotation.csv", header=TRUE)头(annotation.pd)运行Fraction techrepmix通道#> 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01。Raw 1 1 126#> 2 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01。raw 1 1 127N#> 3 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01。raw 1 1 127C#> 4 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01。raw 1 1 128N#> 5 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01。raw 1 1 128C#> 6 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01。raw 1 1 129N条件混合生物复制#> 1 Norm Mixture1 Mixture1_Norm#> 2 0.667 Mixture1 Mixture1_0.667#> 3 0.125 Mixture1 Mixture1_0.125#> 4 0.5 Mixture1 Mixture1_0.5#> 5 1 Mixture1 Mixture1_1 . ##> 6 0.125 Mixture1 Mixture1_0.125使用蛋白质。登记入册as protein name输入。pd < -PDtoMSstatsTMTFormat(生。annotation.pd pd,which.proteinid=“蛋白质。登记入册”）#> INFO[2022-04-26 17:15:24] **从ProteomeDiscoverer导入原始数据成功。#> INFO[2022-04-26 17:15:24] **从ProteomeDiscoverer清除原始数据成功。#> INFO[2022-04-26 17:15:24] **使用提供的注释。#> INFO [2022-04-26 17:15:24] ** Run和Channel标签被标准化，以删除'等符号。'或'%'。#> INFO[2022-04-26 17:15:24] **使用以下选项:#> -特征将由列定义:PeptideSequence, PrecursorCharge#> -共享肽将被删除。只有单一特征的蛋白质不会被移除。#> -每次运行测量少于3次的特征将被删除。#> INFO[2022-04-26 17:15:24] **在每次运行中跨通道的所有缺失测量的特征被删除。#> INFO[2022-04-26 17:15:24] **共享肽被删除。#> INFO[2022-04-26 17:15:24] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO [2022-04-26 17:15:26] ** psm已聚合为肽离子。#> INFO[2022-04-26 17:15:26] **运行与量化数据合并的注释。#> INFO[2022-04-26 17:15:26] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO[2022-04-26 17:15:26] **分馏处理。**更新量化数据，进行平衡设计。缺失的值用NA标记#> INFO[2022-04-26 17:15:26] **已完成预处理。数据集已经准备好由proteinsummary函数处理了。头(input.pd)PSM混合液# # # 1 Q9NSD9 [K].阿加斯德。[I] 2 [K].阿加斯登。(我)_2 Mixture1# bbb 2 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1#> 3 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1# 4q9nsd9 [K].上海。[I] 2 [K].阿加斯登。(我)_2 Mixture1# 2b7 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1# bq6 Q9NSD9 [K].阿加斯基。[I] 2 [K].阿加斯登。(我)_2 Mixture1运行通道#> 11 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 126#> 2 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 3 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127N#> 4 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 128C#> 5 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 128N#> 61 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 129C#>生物复制条件强度#> 1 Mixture1_Norm Norm 23398.14#> 2 Mixture1_0.125 0.125 22387.63Mixture1_0.667 0.667 17754.91#> 4 Mixture1_1 1 19640.59#> 5 Mixture1_0.5 0.5 20048.57#> 6 Mixture1_0.5 0.5 19188.13#使用Master.Protein.Accessions作为蛋白质名称input.pd.master < -PDtoMSstatsTMTFormat(生。annotation.pd pd,which.proteinid=“Master.Protein.Accessions”）#> INFO[2022-04-26 17:15:26] **从ProteomeDiscoverer导入原始数据成功。#> INFO[2022-04-26 17:15:26] **从ProteomeDiscoverer清除原始数据成功。#> INFO[2022-04-26 17:15:26] **使用提供的注释。#> INFO [2022-04-26 17:15:26] ** Run和Channel标签被标准化，以删除'等符号。'或'%'。#> INFO[2022-04-26 17:15:26] **使用以下选项:#> -特征将由列定义:PeptideSequence, PrecursorCharge#> -共享肽将被删除。只有单一特征的蛋白质不会被移除。#> -每次运行测量少于3次的特征将被删除。#> INFO[2022-04-26 17:15:26] **在每次运行中跨通道的所有缺失测量的特征被删除。#> INFO[2022-04-26 17:15:26] **共享肽被删除。#> INFO[2022-04-26 17:15:26] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO [2022-04-26 17:15:27] ** psm已聚合为肽离子。#> INFO[2022-04-26 17:15:27] **运行与量化数据合并的注释。#> INFO[2022-04-26 17:15:27] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO[2022-04-26 17:15:27] **分馏处理。#> INFO[2022-04-26 17:15:27] **更新量化数据进行平衡设计。缺失的值用NA标记#> INFO[2022-04-26 17:15:27] **已完成预处理。数据集已经准备好由proteinsummary函数处理了。头(input.pd.master)PSM混合液# # # 1 Q9NSD9 [K].阿加斯德。[I] 2 [K].阿加斯登。(我)_2 Mixture1# bbb 2 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1#> 3 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1# 4q9nsd9 [K].上海。[I] 2 [K].阿加斯登。(我)_2 Mixture1# 2b7 Q9NSD9 [K]. aagasdv。[I] 2 [K].阿加斯登。(我)_2 Mixture1# bq6 Q9NSD9 [K].阿加斯基。[I] 2 [K].阿加斯登。(我)_2 Mixture1运行通道#> 11 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 126#> 2 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 3 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127N#> 4 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 128C#> 5 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 128N#> 61 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 129C#>生物复制条件强度#> 1 Mixture1_Norm Norm 23398.14#> 2 Mixture1_0.125 0.125 22387.63Mixture1_0.667 0.667 17754.91#> 4 Mixture1_1 1 19640.59#> 5 Mixture1_0.5 0.5 20048.57#> 6 Mixture1_0.5 0.5 19188.13

这里是预处理步骤的总结PDtoMSstatsTMTFormat函数。

被多个蛋白质共享的肽离子被去除
如果一个光谱在一次运行中有多个识别，它只保留丢失报告离子强度数量最少、报告离子强度最高或干扰分数最低(如果信息可用)的最佳识别
如果光谱在一次MS运行中只有一个或两个报告离子强度，则从该运行中删除光谱
含有多种蛋白质的不明确蛋白质组被过滤掉
对于分馏，如果一个肽离子由多个分数共享，我们保留了分数中所有通道中平均报告离子丰度最大的分数。

MaxQtoMSstatsTMTFormat ()

预处理来自MaxQuant的psm级数据，并将其转换为MSstatsTMT所需的输入格式。

参数

证据:名称evidence.txt数据，包括psm级别的数据。
proteinGroups:名称proteinGroups.txt数据，其中包含蛋白质鉴定的详细信息。
注释:包含列的数据帧运行，分数，TechRepMixture，通道，条件，BioReplicate，混合物．
which.proteinid:使用蛋白质(默认)列为蛋白质名称。Leading.proteins或Leading.razor.proteins可以代替。然而，它们可能有共享的肽。
rmProt_Only.identified.by.site: TRUE将删除' Only.identified.by. '中带' + '的蛋白质。从proteinGroups.txt中的site '列，该列仅由修改站点标识。FALSE是默认值。
useUniquePeptide: TRUE(默认值)删除分配给多个蛋白质的肽。我们假设每种蛋白质使用唯一的肽。
rmPSM_withfewMea_withinRun:仅适用于rmPSM_withMissing_withinRun = FALSE。TRUE(默认)将删除在每个Run中有1或2个测量的特性。
removeProtein_with1Peptide: TRUE会去除只有1个肽和电荷的蛋白质。默认为FALSE。
summaryforMultipleRows: sum(默认值)或max -当某一PSM在某一次运行中有多个测量值时，选择具有最大和或最大值的PSM。

例子

#读取MaxQuant文件# proteinGroups <- read.table("proteinGroups.txt"， sep="\t"， header=TRUE)# evidence <- read.table("evidence.txt"， sep="\t"， header=TRUE)#用户应该创建这个注释文件。它不是MaxQuant的输出。#注释。mq < -read.csv(file="MQ_Annotation.csv", header=TRUE)输入。mq < -MaxQtoMSstatsTMTFormat(evidence, proteinGroups, annotation.mq)#> INFO[2022-04-26 17:15:27] **从MaxQuant导入原始数据成功。#> INFO[2022-04-26 17:15:27] **删除潜在污染物值为+的行#> INFO[2022-04-26 17:15:27] **删除Reverse值等于+的行#> INFO[2022-04-26 17:15:27] **删除潜在污染物值为+的行#> INFO[2022-04-26 17:15:27] **删除Reverse值等于+的行#> INFO[2022-04-26 17:15:27] ** +污染物，+反向，+电位。污染物蛋白被去除。#> INFO[2022-04-26 17:15:27] **在每次运行中跨通道的所有缺失测量的特征被删除。#> INFO[2022-04-26 17:15:27] **清除MaxQuant原始数据成功。#> INFO[2022-04-26 17:15:27] **使用提供的注释。#> INFO [2022-04-26 17:15:27] ** Run和Channel标签被标准化，以删除'等符号。'或'%'。#> INFO[2022-04-26 17:15:27] **使用以下选项:#> -特征将由列定义:PeptideSequence, PrecursorCharge#> -共享肽将被删除。只有单一特征的蛋白质不会被移除。#> -每次运行测量少于3次的特征将被删除。#> INFO[2022-04-26 17:15:27] **在每次运行中跨通道的所有缺失测量的特征被删除。#> INFO[2022-04-26 17:15:27] **共享肽被删除。#> INFO[2022-04-26 17:15:27] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO [2022-04-26 17:15:28] ** psm已聚合为肽离子。#> INFO[2022-04-26 17:15:28] **运行与量化数据合并的注释。#> INFO[2022-04-26 17:15:28] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO[2022-04-26 17:15:28] **分馏处理。#> INFO[2022-04-26 17:15:28] **更新量化数据进行平衡设计。缺失的值用NA标记#> INFO[2022-04-26 17:15:28] **已完成预处理。数据集已经准备好由proteinsummary函数处理了。头(input.mq)#>蛋白名肽序列电荷#> 1 p37108 aaaaaaapaaaatapttaattaataaq 3#> 2 p37108 aaaaaaapaaaatapttaattaataaq 3#> 3 p37108 aaaaaaapaaaatapttaattaataaq 3#> 4 p37108 aaaaaaapaaaatapttaattaataaq 3#> 5 p37108 aaaaaaapaaaatapttaattaataaq 3#> 6 p37108 aaaaaaapaaaatapttaattaataaq 3#> PSM混合物techrepmix#> 1 aaaaaaaaaaaatapttaattaataaq_3 Mixture1#> 2 AAAAAAAAAPAAAATAPTTAATTAATAAQ_3 Mixture1#> 3 aaaaaaaaaaaatapttaattaataaq_3 Mixture1#> 4 aaaaaaaaaaaatapttaattaataaq_3 Mixture1#> 5 aaaaaaaaaaaatapttaattaataaq_3 Mixture1#> 6 aaaaaaaaaaaatapttaattaataaq_3 Mixture1#>执行Channel BioReplicate Condition命令#> 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01 channel0 Mixture1_Norm规范#> 2 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01 channel1 Mixture1_0.667 0.667#> 3 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01 channel2 Mixture1_0.125 0.125#> 4 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01 channel3 Mixture1_0.5 0.5#> 5 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01 channel4 Mixture1_1#> 6 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01 channel5 Mixture1_0.125 0.125# >强度#> 1 883.78#> 2 715.37#> 3 1090.60#> 4 1080.10#> 5 1006.40#> 6 1137.90

SpectroMinetoMSstatsTMTFormat ()

预处理来自SpectroMine的PSM数据，并将其转换为MSstatsTMT所需的输入格式。

参数

输入: SpectroMine PSM输出数据名称。阅读PSM表。
注释:包含列的数据帧运行，分数，TechRepMixture，通道，条件，BioReplicate，混合物．
filter_with_Qvalue: TRUE(默认值)将过滤掉EG中大于qvalue_cutoff的强度。Qvalue列。这些强度将被NA取代，并将被认为是剔除缺失值，用于归算。
qvalue_cutoff: EG.Qvalue的截止值。默认值为0.01。
useUniquePeptide: TRUE(默认值)删除分配给多个蛋白质的肽。我们假设每种蛋白质使用唯一的肽。
rmPSM_withfewMea_withinRun:只适用于rmPSM_withMissing_withinRun = FALSE．TRUE(默认)将删除在每个Run中有1或2个测量的特性。
removeProtein_with1Peptide: TRUE会去除只有1个肽和电荷的蛋白质。默认为FALSE。
summaryforMultipleRows: sum(默认值)或max -当某一PSM在某一次运行中有多个测量值时，选择具有最大和或最大值的PSM。

例子

阅读SpectroMine PSM报告#生。mine <- read.csv(' 20180831_095547_sid - ot - ms3 - short_psm Report_20180831_103118.xls'， sep="\t")#用户应该创建这个注释文件。这不是来自SpectroMine的输出#注释。我的< -read.csv(file="Mine_Annotation.csv", header=TRUE)输入。我的< -SpectroMinetoMSstatsTMTFormat(生。我的,annotation.mine)#> INFO[2022-04-26 17:15:28] **从SpectroMine导入原始数据成功。#> INFO [2022-04-26 17:15:28] ** SpectroMine原始数据清除成功。#> INFO[2022-04-26 17:15:28] **使用提供的注释。#> INFO [2022-04-26 17:15:28] ** Run和Channel标签被标准化，以删除'等符号。'或'%'。#> INFO[2022-04-26 17:15:28] **使用以下选项:#> -特征将由列定义:PeptideSequence, PrecursorCharge#> -共享肽将被删除。只有单一特征的蛋白质不会被移除。#> -每次运行测量少于3次的特征将被删除。#> INFO [2022-04-26 17:15:28] ** PGQValue中值不小于0.01的强度被NA替换#> INFO [2022-04-26 17:15:28] ** Qvalue中值不小于0.01的强度替换为NA#> INFO[2022-04-26 17:15:28] **在每次运行中跨通道的所有缺失测量的特征被删除。#> INFO[2022-04-26 17:15:28] **共享肽被删除。#> INFO[2022-04-26 17:15:28] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO [2022-04-26 17:15:28] ** psm已聚合为肽离子。#> INFO[2022-04-26 17:15:28] **运行与量化数据合并的注释。**对于在1_1的分数之间重叠的肽，使用平均丰度最大的分数。#> INFO[2022-04-26 17:15:28] **属于相同混合物的分数已经组合。#> INFO[2022-04-26 17:15:28] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO[2022-04-26 17:15:28] **分馏处理。#> INFO[2022-04-26 17:15:28] **更新量化数据进行平衡设计。缺失的值用NA标记#> INFO[2022-04-26 17:15:28] **已完成预处理。数据集已经准备好由proteinsummary函数处理了。头(input.mine)#>蛋白名肽序列电荷#> 1 P07954 [TMTNter]AAAEVNQDYGLDPK[TMTLys#> 2 P07954 [TMTNter]AAAEVNQDYGLDPK[TMTLys#> 3 P07954 [TMTNter]AAAEVNQDYGLDPK[TMTLys#> 4 P07954 [TMTNter]AAAEVNQDYGLDPK[TMTLys#> 5 P07954 [TMTNter]AAAEVNQDYGLDPK[TMTLys#> 6 P07954 [TMTNter]AAAEVNQDYGLDPK[TMTLys#> PSM mix techrepmix运行通道#> 1 [TMTNter]AAAEVNQDYGLDPK[TMTLys]_2 1 1 1_1 TMT6_126#> 2 [TMTNter]AAAEVNQDYGLDPK[TMTLys]_2 1 1 1_1 TMT6_127#> 3 [TMTNter]AAAEVNQDYGLDPK[TMTLys]_2 1 1 1_1 TMT6_128#> 4 [TMTNter]AAAEVNQDYGLDPK[TMTLys]_2 1 1 1_1 TMT6_129#> 5 [TMTNter]AAAEVNQDYGLDPK[TMTLys]_2 1 1 1_1 TMT6_130#> 6 [TMTNter]AAAEVNQDYGLDPK[TMTLys]_2 1 1 1_1 TMT6_131#>生物复制条件强度#> 1 1 3 6393.694#> 2 2 3 7887.951#> 3 3 9917.544#> 4 11 11282.770#> 5 2 1 8544.471#> 6 3 1 4893.753

OpenMStoMSstatsTMTFormat ()

预处理来自OpenMS的MSstatsTMT报告，并将其转换为MSstatsTMT所需的输入格式。

参数

输入: OpenMS中MSstatsTMT报告的数据名。读取csv文件。
useUniquePeptide: TRUE(默认值)删除分配给多个蛋白质的肽。我们假设每种蛋白质使用唯一的肽。
rmPSM_withfewMea_withinRun:仅适用于rmPSM_withMissing_withinRun = FALSE。TRUE(默认)将删除在每个Run中有1或2个测量的特性。
removeProtein_with1Peptide: TRUE会去除只有1个肽和电荷的蛋白质。默认为FALSE。
summaryforMultipleRows: sum(默认值)或max -当某一PSM在某一次运行中有多个测量值时，选择具有最大和或最大值的PSM。

例子

#读取MSstatsTMT报告从OpenMS#生。om < -read.csv("OpenMS_20200222/20200225_MSstatsTMT_OpenMS_Export.csv")头(raw.om)#> RetentionTime ProteinName peptidessequence Charge#> 1 2924.491 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex) 2#> 2 2924.491 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex) 2#> 3 2924.491 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex) 2#> 4 2924.491 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex) 2#> 5 2924.491 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex#> 6 2924.491 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex) 2运行mix techrepmix Fraction#> 1 1 Long_LF 1 1_1_3 1 1_1 3#> 2 2 Long_LF 2 1_1_3 1 1_1 3#> 3 3龙_m 3 1_1_3 1 1_1 3#> 4 6 Long_M 6 1_1_3 1 1_1 3#> 5 5模5 1_1_3 1 1_1 3#> 6 9模9 1_1_3 1 1_1 3# >强度#> 1 5727.319#> 2 6985.365#> 3 4553.897#> 4 5937.782#> 5 5151.292#> 6 6800.128# >参考#> 1 PAMI-176_Mouse_A-J_TMT_40ug_22pctACN_25cm_120min_20160223_OT。mzML_controllerType=0 controllerNumber=1 scan=113242 PAMI-176_Mouse_A-J_TMT_40ug_22pctACN_25cm_120min_20160223_OT。mzML_controllerType=0 controllerNumber=1 scan=113243 PAMI-176_Mouse_A-J_TMT_40ug_22pctACN_25cm_120min_20160223_OT。mzML_controllerType=0 controllerNumber=1 scan=113244 PAMI-176_Mouse_A-J_TMT_40ug_22pctACN_25cm_120min_20160223_OT。mzML_controllerType=0 controllerNumber=1 scan=113245 PAMI-176_Mouse_A-J_TMT_40ug_22pctACN_25cm_120min_20160223_OT。mzML_controllerType=0 controllerNumber=1 scan=11324PAMI-176_Mouse_A-J_TMT_40ug_22pctACN_25cm_120min_20160223_OT。mzML_controllerType=0 controllerNumber=1 scan=11324该函数只需要一个输入文件输入。om < -OpenMStoMSstatsTMTFormat(raw.om)#> INFO [2022-04-26 17:15:28] ** OpenMS原始数据导入成功。#> INFO[2022-04-26 17:15:28] **清除OpenMS原始数据成功。#> INFO[2022-04-26 17:15:28] **使用以下选项:#> -特征将由列定义:PeptideSequence, PrecursorCharge#> -共享肽将被删除。只有单一特征的蛋白质不会被移除。#> -每次运行测量少于3次的特征将被删除。#> INFO[2022-04-26 17:15:28] **在每次运行中跨通道的所有缺失测量的特征被删除。#> INFO[2022-04-26 17:15:28] **共享肽被删除。#> INFO[2022-04-26 17:15:28] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO [2022-04-26 17:15:28] ** psm已聚合为肽离子。**对于在2_2_2组分之间重叠的多肽，使用平均丰度最大的组分。**对于在3_3_3组分之间重叠的多肽，使用平均丰度最大的组分。#> INFO[2022-04-26 17:15:28] **属于相同混合物的分数已经组合。#> INFO[2022-04-26 17:15:28] **在每次运行中跨通道进行一次或两次测量的特征被删除。#> INFO[2022-04-26 17:15:28] **分馏处理。#> INFO[2022-04-26 17:15:28] **更新量化数据进行平衡设计。缺失的值用NA标记#> INFO[2022-04-26 17:15:28] **已完成预处理。数据集已经准备好由proteinsummary函数处理了。头(input.om)#>蛋白名肽序列电荷#> 1 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex#> 2 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex#> 3 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex#> 4 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex) 2#> 5 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex#> 6 sp|P11679|K2C8_MOUSE .(TMT6plex)AEAETMYQIK(TMT6plex#> PSM mix techrepmix运行通道#> 1 .(TMT6plex)AEAETMYQIK(TMT6plex)_2 1 1_1 1_1_1 1#> 2 .(TMT6plex)AEAETMYQIK(TMT6plex)_2 1 1_1 1_1_1 2#> 3 .(TMT6plex)AEAETMYQIK(TMT6plex)_2 1 1_1 1_1_1 3#> 4 .(TMT6plex)AEAETMYQIK(TMT6plex)_2 1 1_1 1_1_1 4#> 5 .(TMT6plex)AEAETMYQIK(TMT6plex)_2 1 1_1 1_1_16 .(TMT6plex)AEAETMYQIK(TMT6plex)_2 1 1_1 1_1_1#>生物复制条件强度#> 1 1 Long_LF 5727.319#> 2 2 Long_LF 6985.365#> 3 3 Long_M 4553.897#> 4 4 Short_LF 6277.917#> 5 5 Norm 5151.292#> 6 6 Long_M 5937.782

PhilosophertoMSstatsTMTFormat ()

预处理Fragpipe的哲人MSstats报告，并转换为MSstatsTMT所需的输入格式。

参数

输入:哲学家导出的表列表。Fragpipe为每个TMT混合物生成一个csv文件。
路径:包含所有哲人msstats csv文件的文件夹的路径。Fragpipe为每个TMT混合物生成一个msstats.csv文件。
文件夹: logical，如果为TRUE, path参数将被视为文件夹路径，所有msstats*.csv文件将被导入。如果为FALSE, path参数将被视为固定文件路径的向量。
注释:注释与运行，分数，techrepmix，混合物，通道，生物复制，条件列或文件的路径。请参考示例“注释”了解每一列的含义。通道列应与msstats.csv文件中的通道列(忽略前缀“Channel”)一致。Run列应该与Spectrum一致。msstats.csv文件中的文件列。
protein_id_col:使用' protein . accessions '(默认)列作为蛋白质名称。“Master.Protein。登记入册’ can be used instead to get the protein ID with single protein.
peptide_id_col:使用' peptide . sequence '(默认)列显示肽序列。“Modified.Peptide。序列’ can be used instead to get the modified peptide sequence.
Purity_cutoff:纯度的界限。默认为0.6
PeptideProphet_prob_cutoff:肽识别概率截断点。默认值是0.7。
useUniquePeptide:逻辑的，如果为TRUE(默认值)，删除分配给多个蛋白质的肽。我们假设每种蛋白质使用唯一的肽。
rmPSM_withfewMea_withinRun: TRUE(默认)将删除在每次运行中有1或2个测量的特征。
rmPeptide_OxidationM: TRUE(默认)将删除包括氧化(M)序列的肽。
removeProtein_with1Peptide: TRUE会去除只有1个肽和电荷的蛋白质。默认为FALSE。
summaryforMultipleRows: sum(默认值)或max -当某一PSM在某一次运行中有多个测量值时，选择具有最大和或最大值的PSM。

例子

示例代码跳过哲学家转换器#因为输入是包含所有哲人msstats csv文件的文件夹的路径

2.蛋白质的总结，规范化和可视化

2.1.proteinSummarization ()

读取输入文件并获得所需格式的数据后，MSstatsTMT执行

1. 的对数变换强度列
1. 渠道间全球中值归一化
1. 每MS运行和通道的蛋白质摘要
1. 参考通道的局部蛋白水平归一化

全局中值归一化首先应用于肽水平量化数据(在所有通道和MS运行中平衡中值)。在检测差异丰度蛋白之前，应进行肽水平定量的蛋白质总结。然后，使用参考通道的MS运行之间将实现规范化。特别是蛋白质总结法MSstats假设缺失值被删除，然后在将肽水平数据汇总为蛋白质水平数据之前，将缺失值输入。其他方法，包括MedianPolish，中位数而且LogSum，不要假定缺失值。

参数

数据: PDtoMSstatsTMTFormat函数或其他工具的肽级量化数据的输出名称。它应该有命名的列蛋白质，PSM，TechRepMixture，混合物，运行，通道，条件，BioReplicate，强度．
方法:可以进行四种不同的蛋白质水平总结方法:msstats(默认),MedianPolish，中位数，LogSum．
global_norm肽水平数据的全局中值归一化(在所有通道和MS运行中平衡中值)。默认为TRUE。它将在蛋白质水平总结之前执行。
reference_norm: MS运行之间基于参考通道的归一化。TRUE(默认)在每次MS运行中需要至少一个引用通道，由规范在“条件”列中。它将在蛋白质水平总结后进行。FALSE将不执行此规范化步骤。如果数据只运行一次，则reference_norm=FALSE。
remove_norm_channel: TRUE(默认值)移除规范来自蛋白质水平数据的通道。
remove_empty_channel: TRUE(默认值)移除空来自蛋白质水平数据的通道。
MBimpute:只适用于方法= "msstats"．TRUE(默认值)通过加速失效模型计算缺失值。FALSE使用最小值来计算每个肽前体离子的缺失值。
maxQuantileforCensored:我们假设缺失的值被审查。maxQuantileforCensored为确定截尾缺失值的最大分位数，如0.999。默认值为空。

例子

#使用MSstats进行蛋白质总结quant.msstats < -proteinSummarization(input.pd方法=“msstats”，global_norm =真正的，reference_norm =真正的，remove_norm_channel =真正的，remove_empty_channel =真正的）

头(quant.pd.msstats＄ProteinLevelData)运行通道#> 1 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 2 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 3 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 4 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 5 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 6 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#>蛋白质丰度生物复制条件#> 1 p04406 16.59812 0.125 0.125#> 2 p06576 15.55891 0.125 0.125#> 3 p12277 15.28471 0.125 0.125#> 4 p23919 15.20871 0.125 0.125#> 5 p31947 14.86975 0.125 0.125#> 6 q15233 14.57543 0.125 0.125

#使用中位数进行蛋白质总结quant.median < -proteinSummarization(input.pd方法=“中值”，global_norm =真正的，reference_norm =真正的，remove_norm_channel =真正的，remove_empty_channel =真正的）

头(quant.median＄ProteinLevelData)运行通道#> 1 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 2 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 3 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 4 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 5 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#> 6 Mixture1 1 161117_SILAC_HeLa_UPS1_TMT10_Mixture1_01raw 127C#>蛋白质丰度生物复制条件#> 1 Q9NSD9 15.33397 Mixture1_0.125 0.125#> 2 P04406 16.39393 Mixture1_0.125 0.125#> 3 Q15233 14.69981 Mixture1_0.125 0.125#> 4 Q16181 13.83691 Mixture1_0.125 0.125#> 5 P12277 15.06154 Mixture1_0.125 0.125#> 6 P23919 14.89041 Mixture1_0.125 0.125

2.2 dataProcessPlotsTMT ()

用于解释数据分析的可视化。为了说明TMT运行数据预处理和质量控制后的定量数据，dataProcessPlotsTMT从函数中获取定量数据和汇总数据proteinSummarization作为输入。它在pdf文件中生成两种类型的数字作为输出:

剖面图(在选项类型中指定“ProfilePlot”)，以识别每种蛋白质的潜在变异来源;
质量控制图(在选项类型中指定“QCPlot”)，以评估MS运行和通道之间的系统偏差。

参数

数据:的输出proteinSummarization函数。它是一个包含数据帧的列表FeatureLevelData而且ProteinLevelData
类型:可视化的选择。“ProfilePlot”表示跨MS运行的日志强度的剖面图。“QCPlot”表示MS运行期间日志强度的质量控制图。
ylimUp:对数尺度中y轴的上限。为Profile Plot和QC Plot使用上限作为归一化+ 3后log2(强度)的最大值，FALSE(默认值)。
ylimDown:对数尺度中y轴的下限。FALSE(默认值)为Profile Plot和QC Plot为0。
x.axis.size: Profile Plot和QC Plot中“Run”和“channel”的x轴标注尺寸。
y.axis.size: y轴标签大小。默认为10。
text.size: Profile Plot和QC Plot中图形顶部各条件所代表的标签大小。默认为4。
text.angle:剖面图和QC图中图形顶部各条件所代表的标签的角度。默认值为0。
legend.size:剖面图中上图的图例大小。默认值是7。
dot.size.profile:剖面图中圆点的大小。默认值是2。
ncol.guide:图例在图例顶部的列数。缺省值是5。
宽度:保存文件的宽度。默认为10。
高度:保存文件的高度。默认为10。
哪一个蛋白质:蛋白质列表绘制图。List可以是蛋白质的名称，也可以是蛋白质的序号。默认值为“all”，它为每个蛋白质生成所有的图。对于QC图，“allonly”将生成一个包含所有蛋白质的QC图。
originalPlot: TRUE(默认)绘制原始剖面图，不进行归一化。
summaryPlot: TRUE(默认)为每个通道和MS运行绘制蛋白质概要图。
地址:将存储结果的文件夹名称。默认文件夹为当前工作目录。分配的另一个文件夹必须存在于当前工作目录下。自动创建输出pdf文件，默认名称为“ProfilePlot.pdf”或“QCplot.pdf”。命令地址可以帮助指定存储文件的位置，以及如何修改文件名的开头。如果address=FALSE, plot将不会保存为pdf文件，而是显示在窗口中。

例子

没有规范通道和空通道的剖面图dataProcessPlotsTMT（data =quant.msstats,类型=“ProfilePlot”，宽度=21，#调整图形宽度，因为有15个TMT运行。身高=7）

所有的蛋白质有两个pdf，第一个是剖面图，第二个图是汇总和规范化数据的剖面图。XXX_ProfilePlot.pdf显示每个肽离子通过运行和通道，分组每个条件。每个面板表示一次MS运行，一个面板中的每个点表示一次运行中的一个通道。每个肽都有不同的颜色/类型布局。每个肽离子的点与线连接，如果线断开，这意味着没有值(缺失值)。剖面图是检查单个测量值的很好的可视化方法。XXX_ProfilePlot_wSummarization.pdf相同的肽离子以灰色显示，由模型总结的值以红色覆盖。

我们不需要为所有蛋白质绘制所有的剖面图，而是可以为单个蛋白质绘制图。这是蛋白质的例子P04406

dataProcessPlotsTMT（data =quant.msstats,类型=“ProfilePlot”，#选择可视化宽度=21，身高=7，哪一个蛋白质=“P04406”）

质量控制图# dataProcessPlotsTMT (data = quant.msstats,# type = ' QCPlot ',# width = 21， #调整图形宽度，因为有15个TMT运行。# height = 7)