MSstatsSampleSize:方案优化设计的高维MS-based蛋白质组学实验

这个描述介绍MSstatsSampleSize中的所有功能和总结他们的选择。MSstatsSampleSize需要蛋白质丰度量化质谱作为矩阵运行(列生物复制(样品)和行蛋白质)和注释包括生物复制(样品)和他们的条件(如疾病和时间点)。MSstatsSampleSize包括以下功能:

1。估计每个条件均值蛋白质丰度和方差

1.1 estimateVar ()

函数适合灰度线性模型在prelimiary数据(输入,这是数据)。这个函数输出方差分量和平均为每个蛋白质丰度。

参数

数据:数据与蛋白质丰度矩阵。行生物蛋白质和列复制或样品。
注释:注释组样本数据的信息。BioReplicate为ID和样本条件集团信息是必需的。BioReplicate列的信息应该是一样的数据。

例子

# #读取蛋白质丰度表# # CSV表有173列从控制和癌症组。# #是蛋白质和每一行每一列(除了第一列)是生物复制。# #第一列“蛋白质”包含蛋白质的名字。# OV_SRM_train < -阅读。csv(file = "OV_SRM_train.csv")# #分配列“蛋白质”行名称# rownames (OV_SRM_train) < - OV_SRM_train美元蛋白质# #删除列的蛋白质# OV_SRM_train < - OV_SRM_train [, colnames (OV_SRM_train) ! =“蛋白质”]头(OV_SRM_train)112 # > 111 _data2 _data2 114 _data2 115 _data2 117 _data2 118 _data2 119 _data2# > AFM 18.125305 18.64349 17.786586 18.62598 18.097136 18.535312 18.840662# > AHSG 19.128721 19.11689 19.286422 19.55758 19.344060 19.639931 19.959407# > AIAG 14.622719 14.67904 14.573159 14.63815 14.721183 14.680685 14.689130# > AOC3 9.632189 10.11125 9.206763 10.16800 9.684437 9.231637 9.119823# > APOH 17.426479 17.43132 17.075589 17.56990 17.487654 17.387798 16.742562# > ATRN 15.686383 15.87728 15.363577 15.94339 15.797377 15.895453 15.656975121 # > 120 _data2 _data2 122 _data2 124 _data2 125 _data2 126 _data2 127 _data2# > AFM 18.03126 18.30078 18.174929 17.96232 17.689686 18.901496 18.575908# > AHSG 19.15174 19.60217 19.874469 19.04089 19.501971 19.731607 19.584103# > AIAG 14.68560 14.66908 14.698554 14.65223 14.665577 14.780582 14.619267# > AOC3 9.81001 9.76118 9.601232 10.43671 8.985737 9.875627 9.334184# > APOH 17.51288 17.79438 17.232558 17.65325 17.224110 17.785863 17.659559# > ATRN 15.36520 15.95020 15.625773 15.68939 15.753342 16.270773 15.831303129 # > 128 _data2 _data2 130 _data2 131 _data2 132 _data2 133 _data2 134 _data2# > AFM 17.947816 18.147868 18.51270 18.65929 18.47320 17.88667 18.507657# > AHSG 18.841300 19.523012 18.84247 19.63918 19.42743 19.57734 19.659681# > AIAG 14.644087 14.667445 14.63945 14.64111 14.56605 14.61757 14.618578# > AOC3 9.223909 9.437629 10.33851 10.09512 10.42163 9.98921 9.644337# > APOH 16.273186 17.621464 17.51718 17.70859 17.60183 17.39107 17.716885# > ATRN 15.373676 15.687543 15.80440 16.15178 16.03244 15.22396 15.908807136 # > 135 _data2 _data2 137 _data2 138 _data2 139 _data2 141 _data2 142 _data2# > AFM 18.056045 18.217216 18.190407 17.93129 18.190767 18.71189 18.697504# > AHSG 18.684113 19.778128 19.072510 19.64681 19.144389 19.09215 19.173120# > AIAG 14.788843 14.700861 14.690739 14.70032 14.557284 14.49786 14.527640# > AOC3 9.883479 9.956687 9.923819 10.19981 9.584612 10.08803 9.856426# > APOH 17.486721 17.634729 17.326886 17.87975 17.269722 17.51544 17.439385# > ATRN 15.550850 15.945612 15.683677 15.46693 15.755415 15.83076 15.837718144 # > 143 _data2 _data2 145 _data2 148 _data2 150 _data2 152 _data2 153 _data2# > AFM 18.333930 18.74509 18.883271 18.42733 18.238043 18.95043 17.924042# > AHSG 19.205627 19.23469 19.437665 19.37992 18.847405 19.59803 19.252497# > AIAG 14.726276 14.52811 14.667486 14.62488 14.649104 13.97571 14.585755# > AOC3 9.671116 10.25606 9.428427 10.15433 9.718192 10.50247 9.860558# > APOH 17.458798 18.01638 17.547977 17.69565 17.230260 18.20250 17.184654# > ATRN 15.393106 15.89522 15.496752 15.65677 15.526452 16.08452 15.257093158 # > 156 _data2 _data2 160 _data2 161 _data2 164 _data2 165 _data2 168 _data2# > AFM 18.483946 18.010669 18.385003 17.879145 17.903197 17.888331 17.004817# > AHSG 19.276230 18.915663 18.973446 19.072742 19.088324 18.880597 19.117856# > AIAG 14.569342 14.682799 14.622459 14.584713 14.688668 14.512316 14.559322# > AOC3 9.492098 9.735485 9.662316 9.864964 9.193436 9.925697 8.993866# > APOH 17.462395 17.565055 17.530551 17.132638 17.077047 17.430339 17.456123# > ATRN 15.715309 15.578068 15.692108 15.352683 15.710086 15.541809 15.683521170 # > 169 _data2 _data2 171 _data2 173 _data2 174 _data2 175 _data2 176 _data2# > AFM 18.632285 18.085689 18.051762 17.85643 17.836256 18.041862 18.40570# > AHSG 19.400598 19.363621 18.747689 18.73413 19.685220 19.087447 19.39215# > AIAG 14.739893 14.531010 14.744388 14.59457 14.683617 14.640865 14.65400# > AOC3 9.947192 9.186059 9.831393 10.00113 9.766951 9.274928 10.28776# > APOH 16.529038 17.424281 17.542339 16.10105 17.178624 16.936601 17.52544# > ATRN 15.769345 15.898010 15.856918 15.43720 15.340032 15.533356 15.53440179 # > 178 _data2 _data2 180 _data2 182 _data2 183 _data2 184 _data2 186 _data2# > AFM 18.75573 18.27063 18.52774 18.297518 17.582758 17.930931 17.904111# > AHSG 19.29950 18.94489 19.08033 19.113432 18.691674 18.662868 18.530972# > AIAG 14.65713 14.64914 14.72467 14.850340 14.827924 14.689922 14.669593# > AOC3 10.02276 10.47037 9.59893 9.795267 9.370154 9.981769 9.794802# > APOH 17.86451 17.48350 17.30439 17.544530 17.155819 17.169970 16.660848# > ATRN 15.77620 15.58480 15.60318 15.697109 14.605720 15.260143 15.403576188 # > 187 _data2 _data2 190 _data2 192 _data2 194 _data2 195 _data2 196 _data2# > AFM 18.396673 17.894678 17.707195 17.809669 18.34009 18.179624 18.596355# > AHSG 19.080693 19.278260 18.558606 18.662771 19.21291 18.730319 18.834565# > AIAG 14.620739 14.787837 14.720343 14.652637 14.68076 14.634261 14.678035# > AOC3 9.702123 9.681856 9.736804 9.401154 9.33778 9.897792 9.822549# > APOH 17.321073 17.005514 17.087448 17.047272 17.03732 17.227674 15.927422# > ATRN 15.621545 14.806060 14.983297 15.092230 15.42662 15.727192 15.855226198 # > 197 _data2 _data2 199 _data2 205 _data2 206 _data2 207 _data2 208 _data2# > AFM 18.00268 18.27635 18.331772 18.077828 17.452173 18.05501 18.235103# > AHSG 18.25441 18.71128 18.792804 18.912961 18.840506 18.62855 18.553961# > AIAG 14.63728 14.52884 14.778585 14.633616 14.814071 14.76750 14.690582# > AOC3 10.00159 10.02890 9.634046 9.938078 9.831058 10.20700 9.498681# > APOH 17.04321 17.17218 17.459782 16.547486 16.958609 16.02782 16.905076# > ATRN 15.34257 15.24551 14.835897 15.954050 14.513800 15.21354 16.874498210 # > 209 _data2 _data2 211 _data2 212 _data2 213 _data2 214 _data2 215 _data2# > AFM 18.132287 18.375079 17.770032 17.724905 17.657647 18.38242 17.921772# > AHSG 18.949066 18.702423 18.877115 18.269341 19.118199 18.71252 19.296103# > AIAG 14.909930 14.706238 14.684011 14.823715 14.893650 14.75854 14.343939# > AOC3 9.579414 9.678326 9.495482 9.469346 8.824347 10.35025 9.412162# > APOH 17.464916 17.128459 17.186659 17.072809 16.864841 16.59375 17.417278# > ATRN 16.064397 16.378393 14.989205 15.140738 14.477049 15.09208 15.186785218 # > 216 _data2 _data2 219 _data2 221 _data2 223 _data2 225 _data2 226 _data2# > AFM 18.632524 18.51812 18.917493 17.185341 19.13733 17.39628 17.668124# > AHSG 19.355160 19.53827 19.493397 19.298672 19.89682 18.29875 19.171998# > AIAG 14.913842 14.73214 14.965833 14.728767 14.68477 14.77646 14.697848# > AOC3 9.406908 10.27621 9.351153 9.455133 10.01626 10.04424 8.795441# > APOH 17.499664 17.51376 16.706372 17.315701 16.56589 16.23679 17.200088# > ATRN 16.374801 15.95412 16.348563 15.242930 15.61262 14.92587 14.939998228 # > 227 _data2 _data2 229 _data2 230 _data2 232 _data2 233 _data2 234 _data2# > AFM 18.219490 18.34502 18.276027 17.932387 17.929591 18.429553 18.436277# > AHSG 19.010487 19.86036 18.969241 19.183166 19.269394 19.837211 19.301828# > AIAG 14.702392 14.60841 14.678561 14.739957 14.701693 14.549578 14.723665# > AOC3 9.592725 10.32214 9.734937 9.855735 9.760736 9.830378 9.021658# > APOH 17.853825 16.86624 17.276985 17.590303 17.704829 17.666456 17.173970# > ATRN 15.955115 16.02096 15.670380 15.186790 15.693796 15.597309 15.563141239 # > 238 _data2 _data2 240 _data2 241 _data2 243 _data2 245 _data2 247 _data2# > AFM 18.96869 17.293384 17.875729 18.330708 18.483318 18.51463 17.869515# > AHSG 19.63254 18.752183 18.986113 19.199029 19.283156 19.47072 18.885268# > AIAG 14.66505 14.841246 14.864199 14.744263 14.824436 14.81997 14.755289# > AOC3 10.06522 9.142904 8.526826 9.954245 9.788555 10.44169 9.398166# > APOH 17.94275 17.553791 16.451953 17.468578 17.693520 17.39168 16.492304# > ATRN 16.13144 15.405926 14.980693 15.970609 15.744037 15.58433 15.330940250 # > 249 _data2 _data2 251 _data2 252 _data2 253 _data2 256 _data2 260 _data2# > AFM 18.379942 17.75743 18.061166 18.032662 18.031620 18.014187 18.334035# > AHSG 19.140557 18.71993 18.881908 19.174453 19.121928 19.489746 18.722563# > AIAG 14.675358 14.70208 14.726250 14.740409 14.687525 14.767787 14.637014# > AOC3 9.526241 9.00285 9.482894 8.653987 9.523596 9.218346 8.802496# > APOH 17.227454 17.24986 16.242826 17.319249 17.762734 17.863327 17.505322# > ATRN 15.175162 14.95746 15.369109 14.607609 14.955496 15.418160 14.746083262 # > 261 _data2 _data2 263 _data2 264 _data2 266 _data2 268 _data2 269 _data2# > AFM 17.340848 17.434467 18.26882 18.39991 18.228878 16.763601 18.31052# > AHSG 18.410148 18.410194 18.97058 19.61394 18.955525 17.848421 19.72981# > AIAG 14.665203 14.704354 14.61000 14.32172 14.573768 14.771025 14.64845# > AOC3 9.191827 9.278675 10.24927 10.25673 9.106905 8.641794 9.13996# > APOH 17.600706 17.315108 17.25575 18.16690 17.536522 16.615284 17.70658# > ATRN 15.157038 14.906791 15.53208 16.16453 15.332228 14.757124 15.56021273 # > 272 _data2 _data2 274 _data2 276 _data2 277 _data2 278 _data2 280 _data2# > AFM 18.097901 18.24783 17.930339 17.747268 18.180041 18.28853 18.43702# > AHSG 18.979989 19.01244 18.668717 19.460339 19.246000 19.66590 19.50469# > AIAG 14.658132 14.57915 14.525636 14.669980 14.633661 14.70032 14.76518# > AOC3 9.709677 10.23607 8.901961 9.353579 9.874482 10.54489 10.01856# > APOH 17.302029 16.60388 17.510074 17.271007 17.522941 17.75978 18.01372# > ATRN 15.579564 15.98848 15.273826 14.715780 15.864879 15.94246 15.46217283 # > 281 _data2 _data2 285 _data2 287 _data2 289 _data2 291 _data2 292 _data2# > AFM 18.442966 18.39470 17.469177 17.593275 17.319943 18.27916 18.040612# > AHSG 19.468956 19.52308 18.395481 19.223018 18.488503 19.30705 18.852932# > AIAG 14.600466 14.78339 14.735214 14.759663 14.690441 14.69510 14.608408# > AOC3 9.636045 9.93667 9.407982 9.441949 9.188727 9.96577 9.208321# > APOH 17.441397 17.62818 17.624138 16.631229 17.037041 17.31336 17.497227# > ATRN 15.990297 15.21573 14.818069 15.639320 14.802373 15.67334 15.660417294 # > 293 _data2 _data2 296 _data2 297 _data2 298 _data2 299 _data2 300 _data2# > AFM 17.53997 18.106933 17.863355 18.291169 17.886804 18.009294 17.820316# > AHSG 18.85753 18.996350 18.907338 18.986280 18.944631 19.651977 19.306948# > AIAG 14.69265 14.654902 14.740586 14.597331 14.774619 14.647562 14.667379# > AOC3 10.01976 9.674252 8.782559 9.194235 9.032765 9.806832 9.451533# > APOH 17.22411 17.386070 16.016076 17.244806 16.078584 16.409889 17.134223# > ATRN 15.39936 15.765481 14.876109 15.528891 14.970902 14.890409 15.277566305 # > 304 _data2 _data2 306 _data2 307 _data2 309 _data2 310 _data2 312 _data2# > AFM 17.780377 18.088523 17.543665 18.684386 17.421003 17.215059 17.514548# > AHSG 18.621389 18.451854 18.124493 18.938180 18.037526 18.754185 19.572883# > AIAG 14.680430 14.606103 14.683937 14.659891 14.857323 14.936426 14.667030# > AOC3 9.912006 9.107903 8.757357 9.851319 8.624146 9.627355 9.314186# > APOH 17.013894 17.343102 16.489484 17.055566 16.948763 15.753452 17.233069# > ATRN 15.677189 15.235679 14.577096 15.037739 14.522558 14.543692 14.308494314 # > 313 _data2 _data2 316 _data2 317 _data2 318 _data2 319 _data2 320 _data2# > AFM 17.155426 17.928557 17.577918 18.170263 18.162079 17.34586 17.400453# > AHSG 18.436080 19.262887 17.863462 19.205413 18.730273 18.74122 18.958450# > AIAG 14.759980 14.658502 14.773180 14.863401 14.722524 14.83162 14.755337# > AOC3 8.630082 9.672823 8.892625 9.862696 8.795811 9.22160 9.706257# > APOH 15.700634 17.793827 16.037153 17.414298 17.243269 16.32879 16.123737# > ATRN 14.112309 15.067181 14.852712 13.845938 14.927448 15.32303 14.881399# > 321 _data2 322 _data2 324 _data2 325 _data2 326 _data2 327 _data2 17 _data1# > AFM 18.591053 18.308186 18.137755 18.347084 18.252126 17.802494 18.319153# > AHSG 19.205644 18.744856 18.167016 18.446565 18.901464 18.673620 19.449831# > AIAG 14.915479 14.970198 14.778891 14.626631 14.828018 14.593578 14.550948# > AOC3 9.806904 9.859974 9.540925 9.186197 9.941376 9.406369 9.504025# > APOH 16.170522 16.321222 16.819747 17.227516 17.375660 17.298652 17.518350# > ATRN 15.581586 15.941980 15.420064 15.432483 15.548218 15.525004 15.905615# > 18 _data1 19 _data1 20 _data1 22 _data1 23 _data1 24 _data1 25 _data1# > AFM 18.530057 18.096524 17.863494 17.772719 17.906108 18.153054 16.878912# > AHSG 19.644695 19.666677 19.060631 19.082822 19.179822 19.356952 19.239355# > AIAG 14.478457 14.574919 14.708477 14.693666 14.688290 14.610936 14.656453# > AOC3 9.212143 9.140614 8.650803 9.381733 9.690872 9.293172 9.225986# > APOH 18.010057 12.511891 17.572180 17.591682 17.723092 18.158306 18.011159# > ATRN 16.165473 15.186984 15.277472 15.088876 15.522584 15.026051 15.112880# > 27 _data1 29 _data1 30 _data1 31 _data1 32 _data1 34 _data1 35 _data1# > AFM 18.044725 17.916760 18.46724 17.476939 18.259068 17.626156 17.076560# > AHSG 19.328346 18.329613 18.99762 18.669560 19.470021 18.946247 17.613020# > AIAG 15.135554 14.642973 14.50106 14.587588 14.392651 14.878944 14.763767# > AOC3 8.830496 9.607988 10.22964 8.666865 9.197119 8.429024 8.745846# > APOH 17.688508 17.622580 18.09545 16.932939 18.020715 17.465965 16.136053# > ATRN 15.356655 15.083532 15.44032 15.050747 15.764067 15.134377 14.67351643 # > 38 _data1 39 _data1 _data1 44 _data1 45 _data1# > AFM 17.819313 17.303960 17.640026 17.274972 18.47362# > AHSG 18.717438 19.077383 18.607056 18.795921 19.40802# > AIAG 15.125151 14.911137 14.625692 14.318688 14.54279# > AOC3 9.241095 9.321773 9.080731 8.895516 10.11394# > APOH 17.522211 16.976758 16.843956 17.486311 18.01415# > ATRN 15.402824 15.192443 15.204575 15.563628 15.63803#读注释包括条件和生物复制。#用户应该使这个注释文件。# OV_SRM_train_annotation < - read.csv(文件= " OV_SRM_train_annotation。csv”,头= TRUE)头(OV_SRM_train_annotation)# > BioReplicate条件# > 88 111 _data2控制# > 89 112 _data2控制# > 90 114 _data2控制# > 91 115 _data2控制# > 92 117 _data2控制# > 93 118 _data2控制#估计每个条件均值蛋白质abunadnce和方差variance_estimation < -estimateVar(data =OV_SRM_train,注释=OV_SRM_train_annotation)# >方差分析做准备…# >方差分析完成。#每个条件意味着蛋白质丰度头(variance_estimation美元μ)# >控制卵巢癌# > AFM 18.213066 - 17.956584# > AHSG 19.137513 - 19.004551# > AIAG 14.665297 - 14.699719# > AOC3 9.749418 - 9.434263# > APOH 17.274931 - 17.161911# > ATRN 15.604271 - 15.297676#每个条件的标准偏差头(variance_estimation美元σ)# >控制卵巢癌# > AFM 0.4212154 - 0.4212154# > AHSG 0.4295371 - 0.4295371# > AIAG 0.1299203 - 0.1299203# > AOC3 0.4432402 - 0.4432402# > APOH 0.6306461 - 0.6306461# > ATRN 0.4412322 - 0.4412322#意味着蛋白质丰度在所有条件头(variance_estimation美元promean)# > AFM AHSG AIAG AOC3 APOH ATRN# > 18.07519 19.06604 14.68380 9.58000 17.21417 15.43945

1.2 meanSDplot ()

这个函数将意味着蛋白质丰富的情节(轴)和标准差(轴)在每一个条件。的洛斯函数是用来适应洛斯之间的平滑meann蛋白质丰度和标准差(方差的平方根)。这个函数生成一个pdf文件与mean-SD阴谋。

参数

数据:一个列表的意思是蛋白质丰度矩阵和标准偏差矩阵。它应该的输出estimateVar函数。
x.axis.size:在Mean-SD情节大小轴标签。默认是10。
y.axis.size:轴标签的大小。默认是10。
smoother_size:洛斯流畅的大小。默认值为1。
宽度:保存pdf文件的宽度。默认为4。
高度:保存的pdf文件的高度。默认为4。
xlimUp:轴的上限mean-SD阴谋。默认是30。
ylimUp:轴的上限mean-SD阴谋。默认是3。
地址:文件夹的名称将存储结果。默认文件夹是当前工作目录。另一个指定的文件夹必须存在在当前工作目录。一个输出pdf文件是自动创建的缺省名称MeanSDPlot.pdf。地址的命令可以指定文件的存储位置以及如何修改文件名的开头。如果地址= FALSE,情节将不会保存为pdf文件,但在窗口显示。

例子

#输出pdf文件与mean-SD阴谋meanSDplot(variance_estimation)

2。模拟数据与给定数量的生物复制和蛋白质基于方差估计

2.1 simulateDataset ()

这个函数模拟数据集与给定数量的生物复制和蛋白质的基础上初步数据集(这个函数的输入)。函数适合灰度线性模型的输入数据数据为了得到方差和平均丰度,使用estimateVar函数。然后它使用方差分量和平均丰度模拟新的训练数据与给定的样本大小和蛋白质数量。它输出模拟蛋白质的数量,一个向量与模拟样本的数量在每一个条件,模拟训练数据集的列表,输入数据集和验证数据集(模拟)。

参数

数据:蛋白质丰度数据矩阵。行生物蛋白质和列复制(样本)。
注释:组信息的样本数据。BioReplicate为ID和样本条件集团信息是必需的。BioReplicate信息应该匹配的列名称数据。
num_simulations:多次重复仿真实验(模拟数据集的数量)。默认是10。
expected_FC:预期的折叠蛋白质的变化。第一个选项(默认)是“数据”,说明褶皱的变化直接估计从输入数据。第二个选择是一个向量与预定义的上市蛋白质折叠的变化。向量的名称必须匹配条件的独特信息注释。必须选择一组作为基准,褶皱变化1的向量。用户应提供list_diff_proteins,用户期望的褶皱变化大于1。没有可用的其他蛋白质list_diff_proteins将会有褶皱变化= 1。
list_diff_proteins:向量的蛋白质名称之间设置有褶皱的变化大于1的条件。如果用户选择expected_FC = "数据",这应该是零。
select_simulated_proteins:标准选择模拟蛋白质之间的数据。它可以1)的“比例”的蛋白质总数输入数据或2)number指定数量的蛋白质。“比例”表明,用户应该提供的值protein_proportion选择。“数量”表明,用户应该提供的值protein_number选择。
protein_proportion:蛋白质总数的比例在输入数据来模拟。例如,输入数据有1000个蛋白质和用户选择protein_proportion = 0.1。蛋白质是降序排名根据他们意味着丰富的所有样品。然后,1000 * 0.1 = 100蛋白质会选择从列表来模拟。默认是1.0,meaans将使用所有的蛋白质。
protein_number:数量的蛋白质来模拟。例如,protein_number = 1000。蛋白质是降序排名根据他们的意思是所有样品和丰富protein_number蛋白质将选定的模拟。默认是1000。
samples_per_group:每组来模拟样品的数量。默认是50。
simulate_validation:默认是假的。如果这是真的,模拟验证组;否则,输入数据将被用作验证集。
valid_samples_per_group:每组来模拟验证样本的数量。这个选项只有当用户选择工作simulate_validation = TRUE。默认是50。

例子

# expected_FC =“数据”:从OV_SRM_train褶皱变化估计# select_simulated_proteins =“比例”:选择模拟蛋白质基于总蛋白质的比例# simulate_valid = FALSE:使用输入OV_SRM_train作为验证集simulated_datasets < -simulateDataset(data =OV_SRM_train,注释=OV_SRM_train_annotation,num_simulations =10,#模拟10倍expected_FC =“数据”,list_diff_proteins =零,select_simulated_proteins =“比例”,protein_proportion =1。0,protein_number =1000年,samples_per_group =50,# 50个样本/条件simulate_validation =假,valid_samples_per_group =50)

探索的输出simulateDataset函数

#模拟蛋白质的数量simulated_datasets美元num_proteins67 # > [1]#一个向量在每个条件模拟样本的数量simulated_datasets美元num_samples# >控制卵巢癌# > 50 50#模拟蛋白质丰度矩阵的列表#列表的每个元素代表一个模拟头(simulated_datasets美元simulation_train_Xs [[1]])#第一次模拟# > IGHG2惠普CFH AHSG AFM CP ITIH4 SERPINA3# > 1 22.03113 22.50081 20.78184 19.14226 19.38346 18.08910 18.27663 18.27486# > 2 23.75993 22.20371 21.36793 18.61512 18.22758 17.84219 17.79030 17.005293 # > 23.13557 23.77741 20.58430 19.20656 17.81917 18.30177 18.23321 17.89875# > 4 23.87946 23.77341 20.81464 - 19.02515 18.13510 - 18.33987 18.10799 - 18.14948# > 5 23.03650 22.95925 20.29333 - 18.76652 17.37536 - 17.86325 17.86634 - 18.17927# > 6 22.39344 21.78941 20.81216 - 18.80627 18.27587 - 18.64163 17.37864 - 18.03594# > KNG1 ITIH2 APOH PON1 CLU SERPINA6 LRG1亮度# > 1 18.08938 17.30825 15.56919 17.61581 17.55306 16.28487 18.41105 16.90701# > 2 17.46784 17.49512 18.50327 16.37526 17.23363 16.00901 16.37318 15.289443 # > 17.30759 16.93573 17.93175 16.62041 17.11318 16.72419 16.59662 16.52174# > 4 17.26600 17.28944 17.22439 - 17.72173 17.35269 - 15.97299 15.98273 - 16.78664# > 5 17.33231 18.05026 16.28447 - 17.19971 17.03917 - 15.99900 17.49468 - 15.94777# > 6 17.41618 18.25460 16.87600 - 18.04326 17.17333 - 15.72811 15.80524 - 16.71910# > FETUA KLKB1 ATRN LGALS3BP AIAG ECM1 F5 HYOU1# > 1 16.11050 15.36969 15.06648 15.59143 14.54071 14.05636 14.35023 14.30189# > 2 16.03314 15.69974 15.84898 14.80299 14.77642 14.75739 13.73680 14.949363 # > 16.31094 15.76676 15.01016 14.73950 14.80303 14.23994 14.10857 14.27213# > 4 15.96221 15.76472 15.01241 - 15.26776 14.76301 - 14.38954 14.04024 - 14.29850# > 5 15.77446 15.29089 14.91205 - 15.80888 14.55124 - 13.91348 14.55439 - 14.51716# > 6 16.22638 15.34281 15.75243 - 14.59817 14.54609 - 14.28804 13.99528 - 13.87531# > COL6A6 SERPINA10 BTD VTN PLTP CD44 F11 CPE# > 1 14.14470 13.29178 13.10108 13.00288 13.00418 12.49597 13.18382 12.03962# > 2 13.81421 13.22860 14.07566 13.97928 13.22192 13.55329 12.38586 12.802863 # > 13.80766 13.51507 13.38897 12.58600 12.89086 11.88669 13.10330 12.20978# > 4 13.82642 13.53245 13.74196 - 15.21552 13.05739 - 13.21724 12.78580 - 12.53795# > 5 14.16546 13.46550 14.05976 - 11.29235 12.92303 - 12.46082 13.04753 - 12.73747# > 6 14.39728 14.06316 13.77346 - 13.75066 13.03480 - 12.75153 12.95548 - 13.33415# >施SERPINA7 ICAM1 NCAM1 LCN2 PRG4 FN1 CD163# > 1 13.00208 12.77974 11.73490 11.92959 11.98522 10.76106 12.38731 12.71811# > 2 12.92526 12.52189 12.01210 11.87200 11.86461 10.88473 12.39764 12.307593 # > 12.44393 12.39496 12.55903 12.31083 12.34980 12.98964 11.62780 12.72413# > 4 13.20056 12.65142 11.84830 - 11.75131 11.47912 - 12.54188 10.93878 - 12.02987# > 5 12.73953 12.03834 11.48716 - 12.02965 12.13674 - 12.06904 11.58919 - 11.95119# > 6 12.51043 11.55274 11.90246 - 12.58852 12.17332 - 11.80925 11.59936 - 12.75380# > CDH5 CADM1 C20orf3 CTSD snps和CDH13 PCYOX1 PVRL1 DSG2# > 1 11.32720 11.55078 11.743567 13.62180 11.58860 11.00715 12.01943 10.76864# > 2 12.25630 10.83933 11.771260 11.90660 11.33426 11.28907 11.21651 10.588723 # > 11.60054 11.19648 12.246587 11.19331 11.37896 10.56639 10.24487 11.14659# > 4 11.36521 10.88184 12.530716 - 11.42292 11.06628 - 10.96379 10.05585 - 11.63068# > 5 11.87422 11.16654 9.917962 - 11.52916 10.74955 - 10.76125 11.97439 - 12.09219# > 6 11.77327 11.25036 11.349414 - 10.89703 11.49846 - 11.17571 11.20142 - 11.04402# > TIMP1 MFAP4 IGFBP3 SLC3A2 ICAM2 GOLM1 LAMP1 CHL1# > 1 10.907946 10.58186 9.043177 10.24173 11.032512 9.851239 9.384609 9.620303# > 2 9.241253 11.30720 11.085099 11.10797 12.026649 10.737061 10.691616 11.3042493 # > 10.664319 11.24480 9.664044 10.53944 9.973522 10.795277 9.770731 10.017440# > 4 11.100541 11.53674 9.963182 - 10.51546 10.639308 - 11.194803 10.685227 - 9.696616# > 5 11.403690 11.36619 10.894547 - 10.39513 10.503021 - 11.215902 10.154327 - 9.718537# > 6 9.715536 11.32363 11.786683 - 10.71346 10.510450 - 10.618621 9.121299 - 10.910551# > L1CAM TNC MRC2 LAMC1 STAB1 DSC2 AOC3# > 1 9.543663 9.926658 9.504935 9.086134 9.487603 10.258583 8.142043# > 2 10.941909 9.545100 10.684454 9.576871 10.255543 9.164568 10.2757353 # > 9.911123 9.411058 10.575714 9.208848 9.277447 8.801248 9.258935# > 4 9.663327 10.003109 9.368230 10.029204 9.536555 9.384602 10.173161# > 5 10.354452 9.861359 10.708146 10.994236 8.934290 9.660742 8.820036# > 6 9.999284 9.785352 10.570377 9.259392 10.058554 9.352572 9.448961# > SIRPA CFP PGCP THBS1# > 1 9.835014 9.941666 8.797327 7.320954# > 2 9.415972 - 8.565556 8.652890 - 8.767772# > 3 9.390760 8.770343 9.424980 7.403706# > 4 9.861103 7.978752 9.505539 8.308035# > 5 9.546594 8.942747 9.444716 9.545767# > 6 9.111921 9.274051 9.165667 7.758975#模拟状态向量的列表#列表的每个元素代表一个模拟头(simulated_datasets美元simulation_train_Ys [[1]])#第一次模拟# >[1]卵巢癌控制卵巢癌卵巢癌卵巢癌# >[6]控制# >水平:控制卵巢癌

用户还可以指定预期的蛋白质折叠变化他们认为是不同条件之间的丰富。

# expected_FC = expected_FC:用户定义的褶皱变化独特的(OV_SRM_train_annotation美元条件)# >[1]控制卵巢癌# >水平:良性卵巢癌症控制expected_FC < -c(1,1。5)的名字(expected_FC) < -c(“控制”,“卵巢癌”)set.seed(1212年)#这里随机选择一些蛋白质微分函数是如何工作的#差异蛋白质的用户应该准备这个列表diff_proteins < -样本(rownames(OV_SRM_train),20.)simualted_datasets_predefined_FC < -simulateDataset(data =OV_SRM_train,注释=OV_SRM_train_annotation,num_simulations =10,#模拟10倍expected_FC =expected_FC,list_diff_proteins =diff_proteins,select_simulated_proteins =“比例”,protein_proportion =1。0,protein_number =1000年,samples_per_group =50,# 50个样本/条件simulate_validation =假,valid_samples_per_group =50)

3所示。分类的样本大小的估计

3.1。designSampleSizeClassification ()

这个函数的分类模型,对研究对象进行分类的模拟训练数据集(在输出simulatedDataset)。然后,验证了该模型拟合(模拟)验证集。两个性能报告:(1)平均预测精度:函数在每个模拟训练分类器的训练数据集和报告训练分类器的预测精度的验证数据(输出SimulateDataset功能)。然后这些预测精度平均在模拟。(2)意味着蛋白质的重要性:它代表了蛋白质分离不同群体的重要性。据估计在每个模拟训练数据集使用的功能varImp从包插入符号。请参考帮助文件varImp对每个分类器如何计算蛋白质的重要性。那么这些每个蛋白质平均重要值在所有的模拟。

列表中每个模拟数据集上训练分类模型,验证集上的预测精度预测相应的分类模型和所有的蛋白质的重要性值估计的相应分类模型也报道。

参数

模拟:一组模拟数据集应该输出的名称SimulateDataset函数。
分类器:一个字符串指定使用哪个classfier。这个函数使用函数火车从包插入符号。选项1)射频(随机森林calssifier,默认选项)。2)nnet(神经网络),3)svmLinear线性内核(支持向量机),4)logreg(逻辑回归),和5)naive_bayes (naive_bayes)。
平行:默认是假的。如果这是真的,执行并行计算。

例子

classification_results < -designSampleSizeClassification(模拟=simulated_datasets,平行=假)

探索的输出designSampleSizeClassification

#模拟蛋白质的数量classification_results美元num_proteins67 # > [1]#一个向量在每个条件模拟样本的数量classification_results美元num_samples# >控制卵巢癌# > 50 50#平均预测精度对所有模拟数据集,#具有相同的“num_proteins”和“num_samples”classification_results美元mean_predictive_accuracy0.7260116 # > [1]#重要性意味着蛋白质向量所有模拟数据集,#这是“num_proteins”的长度。头(classification_results美元mean_feature_importance)# > GOLM1 SERPINA3 TIMP1惠普LGALS3BP LRG1# > 10 9 8 7 7 6

为了加快运行时间,包还提供了并行计算designSampleSizeClassification函数。

# #尝试并行计算加速# #并行计算可能会导致错误而分配的核心资源# #然后用户可以尝试abova函数没有并行计算classification_results_parallel < -designSampleSizeClassification(模拟=simulated_datasets,平行=真正的)

3.2 designSampleSizeClassificationPlots ()

这个函数可视化分类样本大小的计算。平均预测精度和平均蛋白质在每个样本从输入的重要性数据函数的输出designSampleSizeClassification。说明平均预测精度和蛋白质的重要性在不同的样本大小,它生成两种类型的情节在pdf文件作为输出:

预测精度图显示,平均预测精度在不同样本大小。轴代表不同的样本大小和轴代表平均预测精度。
蛋白质的重要性情节包括多个次要情节。次要情节的数量等于list_samples_per_group。每一次要情节展示了num_important_proteins_show最重要的蛋白质在每个样本大小。每一次要情节的轴是蛋白质名称和轴是指蛋白质样本容量下的重要性。

虽然不同生物复制的数量来模拟,生成的样本容量/条件可以找到最大的预测准确性的预测准确性情节,每个条件最优样本大小可以用来设计未来的实验。同时,蛋白质,可以分类的条件最好,情节是蛋白质报告的重要性。

参数

数据:从函数的列表输出designSampleSizeClassification。每个元素代表的结果在一个特定的样本大小。输入应包括至少两个仿真结果与不同的样本大小。
list_samples_per_group:一个向量包括不同的样本大小模拟。这是必需的。模拟输入的数量数据的长度应该等于list_samples_per_group吗
num_important_proteins_show蛋白质:蛋白质的数量显示在情节的重要性。
protein_importance_plot:真(默认)将蛋白质重要情节。
predictive_accuracy_plot:真(默认)吸引了预测精度。
x.axis.size情节:轴标签的大小在预测精度和蛋白质重要情节。默认是10。
y.axis.size情节:轴标签的大小在预测精度和蛋白质重要情节。默认是10。
predictive_accuracy_plot_width:保存pdf文件的宽度预测精度。默认为4。
predictive_accuracy_plot_height:保存pdf文件的高度预测的准确性。默认为4。
protein_importance_plot_width:保存pdf文件的宽度对蛋白质重要情节。默认是3。
protein_importance_plot_height蛋白质:保存pdf文件的高度重要性的阴谋。默认是3。
ylimUp_predictive_accuracy:轴的上限为预测准确性阴谋。默认值为1。的范围应该在0到1。
ylimDown_predictive_accuracy:轴的下限为预测准确性阴谋。默认是0.0。的范围应该在0到1。
地址:文件夹的名称将存储结果。默认文件夹是当前工作目录。另一个指定的文件夹必须存在在当前工作目录。一个输出pdf文件是自动创建的缺省名称PredictiveAccuracyPlot.pdf和ProteinImportancePlot.pdf。地址的命令可以指定文件的存储位置以及如何修改文件名的开头。如果地址= FALSE,情节将不会保存为pdf文件,但在窗口显示。

例子

# # # # # # # #样本大小分类#模拟不同的样本大小每组10生物replicats # 1)25 # 1)生物replicats每组# 2)50生物replicats /组每组100生物replicats # 3)# 4)200生物replicats每组list_samples_per_group < -c(10,25,50,One hundred.,200年)#保存每个样本容量下的仿真结果multiple_sample_sizes < -列表()为(我在seq_along(list_samples_per_group)) {为每个样本大小#运行仿真simulated_datasets < -simulateDataset(data =OV_SRM_train,注释=OV_SRM_train_annotation,num_simulations =10,#模拟10倍expected_FC =“数据”,list_diff_proteins =零,select_simulated_proteins =“比例”,protein_proportion =1。0,protein_number =1000年,samples_per_group =list_samples_per_group[我],simulate_valid =假,valid_samples_per_group =50)为每个样本大小#运行分类性能的评估res < -designSampleSizeClassification(模拟=simualted_datasets,平行=真正的)#保存结果multiple_sample_sizes[[我]]< -res}# #地块designSampleSizeClassificationPlots(multiple_sample_sizeslist_samples_per_group,ylimUp_predictive_accuracy =0.8,ylimDown_predictive_accuracy =0.6)

4所示。假设检验的样本大小的估计

4.1。designSampleSizeHypothesisTestingPlot ()

函数适合灰度线性模型的输入数据。然后它使用拟合模型和褶皱变化模型计算样本大小的估计假设检验通过designSampleSize函数从MSstats包。它输出一个表数量最小的生物replciates每条件获得预期的罗斯福和权力在不同褶皱变化,情节和样本大小的PDF文件。

参数

数据:蛋白质丰度数据矩阵。行生物蛋白质和列复制(样本)。
注释:组信息的样本数据。BioReplicate为ID和样本条件集团信息是必需的。BioReplicate信息应该匹配的列名称数据。
desired_FC:所需的褶皱变化的范围。第一个选项(默认)是“数据”,指示的范围所需的褶皱变化是直接从输入估计数据最大,最小的褶皱变化和褶皱的变化输入的数据。第二个选项是一个矢量,包括上下值所需的褶皱变化(例如,c (1.25, 1.75)。
select_testing_proteins:假设检验的标准选择蛋白质和样本大小的计算。方差(和所需的一系列褶皱变化如果desiredFC =“数据”)将估计的样本量计算选定的蛋白质。它可以1)的“比例”输入数据或蛋白质的总数

“数”来指定数量的蛋白质。“比例”表明,用户应该提供的值protein_proportion选择。“数量”表明,用户应该提供的值protein_number选择。

protein_proportion:蛋白质总数的比例在输入数据进行测试。例如,输入数据有1000个蛋白质和用户选择protein_proportion = 0.1。蛋白质是降序排名根据他们意味着丰富的所有样品。然后,1000 * 0.1 = 100蛋白质将选择从顶部测试列表。默认是1.0,meaans将使用所有的蛋白质。
protein_number:数量的蛋白质测试。例如,protein_number = 1000。蛋白质是降序排名根据他们的意思是所有样品和丰富protein_number蛋白质将选定的测试。默认是1000。
罗斯福:一个预先确定的错误发现率(罗斯福)来控制整个假阳性。默认是0.05。
权力:一个预先确定的概率统计权力定义为检测真正的褶皱变化。你应该输入功率你期望的平均值。默认是0.9。
宽度:保存pdf文件的宽度。默认是5。
高度:保存的pdf文件的高度。默认是5。
地址:文件夹的名称将存储结果。默认文件夹是当前工作目录。另一个指定的文件夹必须存在在当前工作目录。一个输出pdf文件是自动创建的缺省名称HypothesisTestingSampleSizePlot.pdf。地址的命令可以指定文件的存储位置以及如何修改文件名的开头。如果地址= FALSE,情节将不会保存为pdf文件,但在窗口显示。

例子

#输出pdf文件与样本量计算假设测试的阴谋#也返回一个表,总结情节HT_res < -designSampleSizeHypothesisTestingPlot(data =OV_SRM_train,注释=OV_SRM_train_annotation,desired_FC =“数据”,select_testing_proteins =“比例”,protein_proportion =1。0,protein_number =1000年,罗斯福=0.05,功率=0.9)# >方差分析做准备…# >方差分析完成。# >蛋白质测试数量:67# >第一分位数的褶皱变化从输入数据是1.0074,这是太小了。样本量估计的最小的褶皱变化是设置为1.1# >了假设检验的样本大小的阴谋!#数据帧与列desiredFC numSample,罗斯福、电力和简历头(HT_res)# > desiredFC numSample罗斯福的简历# > 1 0.05 0.9 0.001 1.100 510# > 334 1.125 0.05 0.9 0.001# > 237 0.05 0.9 0.002 1.150# > 4 1.175 178 0.05 0.9 0.002# > 139 1.200 0.05 0.9 0.003# > 1.225 112 0.05 0.9 0.003

5。可视化的模拟数据集

5.1 designSampleSizePCAplot ()

这个函数将PCA初步模拟数据集和每个数据集的情节模拟这个函数(输入)。它输出一个pdf文件,页面的数量等于模拟的数量加1。第一页输入代表了PCA的阴谋数据(OV_SRM_train)。以下页面提供了一个PCA情节在一个模拟。PCA的情节是第一个组件的轴和轴是第二个组件。这个函数可以用来验证模拟数据集是否看起来符合输入初步数据集。

参数

模拟:模拟数据集的列表。它应该的输出simulateDataset函数。
which.PCA:选择一个PCA情节。它可以是“所有”,“都不过”,或“simulationX”。X应该模拟指数,如“simulation1”或“simulation5”。默认是“所有”,所有的情节。“都不过”PCA区域,生成整个输入数据集。“simulationX PCA区域,生成特定的模拟数据集(由索引)。
x.axis.size:在PCA区域大小轴标签。默认是10。
y.axis.size:轴标签的大小。默认是10。
dot.size:在PCA情节点的大小。默认是3。
legend.size:传奇规模以上概要图。默认是7。
宽度:保存pdf文件的宽度。默认是6。
高度:保存的pdf文件的高度。默认是5。
地址:文件夹的名称将存储结果。默认文件夹是当前工作目录。另一个指定的文件夹必须存在在当前工作目录。一个输出pdf文件是自动创建的缺省名称PCAPlot.pdf。地址的命令可以指定文件的存储位置以及如何修改文件名的开头。如果地址= FALSE,情节将不会保存为pdf文件,但在窗口显示。

例子

#输出pdf文件有11个PCA的情节designSampleSizePCAplot(simulated_datasets)