简介

我们的目标rpx包提供了对R中的蛋白质组学数据的编程访问,特别是对ProteomeXchange (PX)中央存储库的访问(参见http://www.proteomexchange.org/而且http://central.proteomexchange.org/).

Vizcaino J.A.等人。ProteomeXchange:全球协调蛋白质组学数据提交和传播杨晓明,刘国强,2014,32,223 - 226,doi:10.1038/nbt.2839。

将来可能会添加其他存储库。

rpx

PXDataset对象

处理数据访问的中心对象是PXDataset类。实例可以通过将有效的PX实验标识符传递给PXDataset构造函数。

library("rpx") id <- "PXD000001" px <- PXDataset(id) px
## PXDataset类对象## Id: PXD000001,包含12个文件使用“pxfiles(.)”查看所有文件。

数据和元数据

属性中可以提取多个属性PXDataset实例,如下所述。

实验标识符,最初用于创建\Robject{PXDataset}实例,可以使用\Rfunction{pxid}方法提取:

pxid(像素)
## [1] " pxd000001 "

命令可以查询可访问数据文件的文件传输urlpxurl方法:

pxurl(像素)
##[1]“ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001”

该物种的数据已经生成,数据可以获得调用pxtax功能:

pxtax(像素)
“Erwinia carotovora”

有关的参考文献可使用pxref方法:

strwrap (pxref (px))
Gatto L, Christoforou A.使用R和Bioconductor进行蛋白质组学数据“##[2]”分析。生物化学生物物理学报2013年5月18日。doi:pii:“##[3]”S1570-9639(13)00186-6。10.1016 / j.bbapap.2013.04.032”

PX实验可用的所有文件都可以通过pxfiles方法:

pxfiles(像素)
## [1] "F063721.dat" ## [2] "F063721.dat-mztab.txt" ## [3] "PRIDE_Exp_mzData_Ac_22134.xml.gz" ## [5] "PXD000001_mztab.txt" ## [6] "README.txt" ## [7] "TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210。mzML“##[8]”TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210。mzXML" ## [9] "TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01。mzXML" ## [10] "TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01。原始的“##[11]”erwinia_carotovora。Fasta " ## [12] "generated"

完整或部分数据集可使用pxget函数。该函数接受一个类的实例PXDataset作为第一个强制参数。

下一个论点,列表,指定要下载的文件。如果没有,则打印一个菜单,用户可以选择一个文件。如果设置为“所有”,在工作目录下下载实验的所有文件。属性,也可以使用数字或逻辑来将要下载的相关文件子集化pxfiles(。)输出。

最后一个论点,,可设置为真正的强制下载工作目录中已经存在的文件。

pxget (px,“erwinia_carotovora.fasta”)
下载1个文件
Dir (pattern = "fasta")
## [1] "erwinia_carotovora.fasta"

默认情况下,pxget如果文件已经可用,则不会下载和覆盖。最后一个论点pxget,可设置为真正的强制下载工作目录中已经存在的文件。

(i <- grep("fasta", pxfiles(px))))
11 . ## [1]
Pxget (px, i) ##同上
下载1个文件
# # / tmp / Rtmpcgk5dE / Rbuild1bbe69b077e rpx /小插曲/ erwinia_carotovora。法斯塔已经出现了。

最后,PX的最新添加和更新列表可以使用pxannounced ()功能:

pxannounced ()
15个新的ProteomeXchange公告
# #数据。集出版。数据电文## # 1 PXD014969 2020-04-27 15:50:31新## 3 PXD018829 2020-04-27 09:57:28新## # 7 PXD015622 2020-04-27 07:48:29新## 9 PXD016616 2020-04-27 07:45:23新## 10 PXD018808 2020-04-27 07:40:23新## # 12 PXD017371 2020-04-27 07:12:07新## # 13 PXD018589新## 15 PXD018035 2020-04-27 07:03:51新

一个简单的用例

下面,我们将展示如何自动提取感兴趣的文件(fasta和mzTab文件),下载它们并使用适当的Bioconductor基础设施读取它们。(请注意,下面是MzTab格式的0.9版本。对于最近的数据,版本参数将被省略。)

(mzt <- grep("F0。+mztab", pxfiles(px), value = TRUE))
## [1] "F063721.dat-mztab.txt"
(fas <- grep("fasta", pxfiles(px), value = TRUE)))
## [1] "erwinia_carotovora.fasta"
Pxget (px, c(mzt, fas))
下载2个文件
# # / tmp / Rtmpcgk5dE / Rbuild1bbe69b077e rpx /小插曲/ erwinia_carotovora。法斯塔已经出现了。
库(Biostrings) readAAStringSet (fas)
##长度4499的AAStringSet对象:假定的…## [2] 153 vaeiyqidnldrgilsalmena…我想说的是…mkkqyiekqqqisfvksffssq…ECA0003推定…## [4] 492 mitleslemllsidenellddl…ECA0004保守…## [5] 499 mrqtaalaerisrlshalehgl…ECA0005保守…## ... ... ... ## [4495] 634 MSDKIIHLTDDSFDTDVLKADG...RRKVDPLRVFASDMARRLELL trx-rv3790 trx-rv... ## [4496] 93 MTKMNNKARRTARELKHLGASI...RELRDEFPMGYLGDYKDDDDK TimBlower TimBlower ## [4497] 309 MFSNLSKRWAQRTLSKSFYSTA...KFKWAGIKTRKFVFNPPKPRK sp|P07143|CY1_YEA... ## [4498] 231 FPTDDDDKIVGGYTCAANSIPY...PGVYTKVCNYVNWIQQTIAAN sp|P00761|TRYP_PI... ## [4499] 269 GVSGSCNIDVVCPEGNGHRDVI...DAAGTGAQFIDGLDSTGTPPV sp|Q7M135|LYSC_LY...
库("MSnbase") (x <- readMzTabData(mzt, "PEP", version = "0.9"))
## MSnSet (storageMode: lockedEnvironment) ## assayData: 1528个特征,6个样本##元素名称:exprs ##协议数据:none ##表型数据## sampleNames: sub[1] sub[2]…sub[6] (6 total) ## varLabels:丰度## varMetadata: labelDescription ## featureData ## featurename: 1 2…1528 (1528 total) ## fvarLabels:序列添加…uri (14 total) ## fvarMetadata: labelDescription ##实验数据:使用'实验数据(对象)' ##注释:## - - -处理信息- - - ## mzTab read: Mon april 27 21:07:32 2020 ## MSnbase版本:2.14.0
头(exprs (x))
## sub[1] sub[2] sub[3] sub[4] sub[5] sub[6] ## 1 10630132 11238708 12424917 12403253 13160903 12229367 11061660 10131218 ## 3 1183431 1322371 1599088 1243715 1306602 1159064 ## 4 5384958 5508454 6883086 6136023 5626680 52138329 ## 6 9873585 10299931 11142071 10664315 9518271
头(fData (x) [1:2])
##序列接入## 1 DGVSVAR ECA0625 ## 2 NVVLDK ECA0625 ## 3 VEDALHATR ECA0625 ## 4 LAGGVAVIK ECA0625 ## 5 LIAEAMEK ECA0625 ## 6 SFGAPTITK ECA0625

问题和帮助

或者张贴问题生物导体支持论坛或者打开GitHub问题

会话信息

sessionInfo ()
## R版本4.0.0(2020-04-24)##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 18.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.11-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.11- bio/ R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_US。UTF-8 LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基础包:## [1]stats4并行统计图形grDevices utils datasets ##[8]方法基础## ##其他附加包:## [1]rpx_1.24.0 MSnbase_2.14.0 ProtGenerics_1.20.0 ## [4] mzR_2.22.0 Rcpp_1.0.4.6 Biobase_2.48.0 ## [7] Biostrings_2.56.0 XVector_0.28.0 IRanges_2.22.0 ## [10] S4Vectors_0.26.0 BiocGenerics_0.34.0 BiocStyle_2.16.0 ## ##通过命名空间加载(且未附加):## [1] lattice_0.20-41 assertthat_0.2.1 digest_0.6.25 ## [4] mzID_1.26.0 evaluate_0.14 ggplot2_3.3.0 ## [10] pillar_1.4.3 zlibbioc_1.34.0 rlang_0.4.5 ## [13] curl4.3 preprocessCore_1.50.0 rmarkdown_1 .2.1 ## [19] munsell_0.5.0 compiler_4.0.0 xfun_0.13 ## [22] pkgconfig_2.0.3 pcaMethods_1.80.0 htmltools_0.4.0 ## [25] tidyselect_1.0.0 tibble_3.0.1 codetools_0.2-16 ## [28] XML_3.99-0.3 crayon_1.3.4[40] stringi_1.4.6 impute_1.62.0 affyio_1.58.0 ## [43] doParallel_1.0.15 limma_3.44.0 xml2_1.3.2 ## [46] ellipsis_0.3.0 vctrs_0.2.4 iterators_1.0.12 ## [52] tools_4.0.0 glue_1.4.0 purrr_0.3.4 ## [52] yaml_2.2.1 colorspace_1.4-1 BiocManager_1.30.10 ## [55] vsn_3.56.0 MALDIquant_1.19.3 knitr_1.28