维护人员
资源维护人员的姓名和邮箱地址。
包:ProteomicsAnnotationHubData
作者: Gatto Laurent [aut, cre], Sonali Arora [aut]
修改:2021-10-26 15:11:00
编译: 2021年10月26日星期二18:23:40
这个包为Bioconductor AnnotationHub web资源提供了一个客户端。AnnotationHub web资源提供了一个中心位置,可以发现基因组文件(例如,VCF,床,假发)和来自标准位置(例如,UCSC, Ensembl)的其他资源。资源包括关于每个资源的元数据,例如,文本描述、标签和修改日期。客户端创建并管理用户检索到的文件的本地缓存,有助于快速和可重复的访问。
的目标ProteomicsAnnotationHubData就是将这一功能扩展到质谱和蛋白质组学数据。
看到AnnotationHub
的指南而且访问AnnotationHub Web服务说明如何使用它的小插图。
library("注解枢纽")ah <-注解枢纽()
## snapshotDate(): 2021-10-20
啊
##注释中心60118条记录## # snapshotDate(): 2021-10-20 ## $dataprovider: Ensembl, BroadInstitute, UCSC, ftp://ftp.ncbi.nlm.nih.gov/g…## # $物种:智人,小家鼠,黑腹果蝇,牛牛,…## # $rdataclass: GRanges, TwoBitFile, BigWigFile, EnsDb, Rle, OrgDb, ChainFile…## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags, ## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH5012"]]]' ## ## title ## AH5012 |染色体带## AH5013 | STS标记## AH5014 | FISH克隆## AH5015 | Recomb Rate ## AH5016 | ENCODE Pilot ## ... ...| TxDb.Hsapiens.UCSC.hg38.knownGene.sqlite
我们可以提取来自PRIDE数据库的条目:
查询(啊,“骄傲”)
##注释hub与4条记录## # snapshotDate(): 2021-10-20 ## $dataprovider: PRIDE ## # $species: Erwinia carotovora ## # $rdataclass: mzRpwiz, mzRident, MSnSet, AAStringSet ## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags, ## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH49006"]]' ## ## title ## AH49006 | PXD000001:Erwinia carotovora和插入蛋白fasta文件## AH49007 | PXD000001:肽级定量数据## AH49008 | PXD000001:原始质谱数据## AH49009 | PXD000001: MS-GF+鉴定数据
或者是一个具体的项目
查询(啊,“PXD000001”)
##注释hub与4条记录## # snapshotDate(): 2021-10-20 ## $dataprovider: PRIDE ## # $species: Erwinia carotovora ## # $rdataclass: mzRpwiz, mzRident, MSnSet, AAStringSet ## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags, ## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH49006"]]' ## ## title ## AH49006 | PXD000001:Erwinia carotovora和插入蛋白fasta文件## AH49007 | PXD000001:肽级定量数据## AH49008 | PXD000001:原始质谱数据## AH49009 | PXD000001: MS-GF+鉴定数据
要查看特定条目的元数据,我们使用它的AnnotationHub条目编号(
啊(“AH49008”)
## snapshotDate(): 2021-10-20 ## # names(): AH49008 ## $dataprovider: PRIDE ## # $species: Erwinia carotovora ## # rdataclass: mzRpwiz ## # $rdatadateadded: 2015-07-31 ## $title: PXD000001:原始质谱数据## # $description:一个Erwinia carotovora中四个人类TMT splikein蛋白…## # $taxonomyid: 554 ## # $genome: NA ## # $sourcetype: mzML ## # $sourceurl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001…## # $sourcesize: NA ## # $tags: c(“蛋白质组学”,“TMT6”,“LTQ Orbitrap Velos”,“PMID:23692960”)## #检索记录与“对象[[“AH49008”]]]”
为了获取实际数据,在这种情况下,原始质谱数据,我们加倍[[
library("mzR") rw <- ah[["AH49008"]]]
##无法检查id: AH49008进行更新##使用以前缓存的版本。
##从缓存加载
##无法检查id: AH49008进行更新##使用以前缓存的版本。
rw
质谱仪文件处理。##文件名:2182f7ac6ab0e_55314扫描次数:7534
在本例中,我们有一个mzRramp类的实例,它可以按照预期进行处理
plot(峰值(rw, 1), type = "h", xlab = "M/Z", ylab = "Intensity")
在上面的简短演示中,我们有直接而且标准化访问原始数据,无需手动打开此原始数据或担心文件格式。数据准备和转换为一个标准Bioconductor数据类型供用户即时使用。这也适用于其他相关数据类型,如鉴定结果,fasta文件或蛋白质肽定量数据。
要列出所有可用的蛋白质组学数据集,可以查询AnnotationHub
类中定义的以下变量ProteomicsAnnotationHubData
包:
图书馆availableProteomicsAnnotationHubData(“ProteomicsAnnotationHubData”)
## [1] " pxd000001 "
描述
四个人类TMT在Erwinia carotovora背景下拼接蛋白。预期报告离子比例:Erwinia多肽:1:1:1:1:1;烯醇化酶spike (sp|P00924|ENO1_YEAST): 10:5:2.5:1 . 2.5:10;BSA spike (sp|P02769|ALBU_BOVIN): 1:2.5:5:10:5:1;PhosB spike (sp|P00489|PYGM_RABIT): 2:2:2:2:1:1;细胞色素C突刺(sp|P62894|CYC_BOVIN): 1:1:1:1:2。
PRIDE的四个数据文件PXD000001实验是通过AnnotationHub
.
原始质谱分析数据来自tmt_erwinia_1ulsike_top10hcd_isol2_45stepped_60min_01 mzml——20141210.
文件从PRDIE ftp站点,作为一个mzRpwiz
对象,从mzR包中。
肽水平定量数据来自F063721.dat-mztab.txt
PRIDE ftp站点上的文件,作为MSnSet
对象,从MSnbase包中。
蛋白质数据库,通过erwinia_carotovora.fasta
文件从PRIDE ftp服务器,作为一个AAStringSet
对象,从Biostrings包中。
识别结果,产生使用MSGF +
搜索引擎,作为一个mzRident
对象,从mzR包中。
建议更新和/或新的质谱和/或蛋白质组学数据,请将您的建议/请求张贴在生物导体支持站点或者打开github的问题.也可以使用Github拉请求.
从ProteomicsAnnotationHubData版本1.1.2
,可以通过编写Debian控制文件(DCF)格式的简单元数据文件来准备提交的数据。DCF是一种简单的格式,用于在纯文本文件中存储键值对,可以方便地由人类直接读写。例如,包的DESCRIPTION文件遵循DCF格式。中详细信息部分read.dcf ?
格式的详细说明。
每个DCF文件可以记录一个或多个数据文件,与默认的R规范相反,注释行以#
支持(不支持内联注释)。这些领域必须下一节将详细介绍这些蛋白质组学标记hubdata (PAHD)文件。
示例,取自/tmp/RtmpwJkpe0/Rinst1a848473fc691/ProteomicsAnnotationHubData/extdata/PXD000001。DCF如下所示:
##标题:PXD000001: Erwinia carotovora和插入蛋白fasta文件##描述:四个人类TMT插入蛋白在Erwinia ## carotovora背景中。预期报告离子比例:## Erwinia多肽:1:1:1:1:1;烯醇化酶spike ## (sp|P00924|ENO1_YEAST): 10:5:2.5:1 .5:10;BSA spike ## (sp|P02769|ALBU_BOVIN): 1:2.5:5:10:5:1;PhosB spike ## (sp|P00489|PYGM_RABIT): 2:2:2:2:1:1;细胞色素C突刺## (sp|P62894|CYC_BOVIN): 1:1:1:1:2。##源类型:FASTA ##配方:ProteomicsAnnotationHubData:::PXD000001FastaToAAStringSet ## RDataPath: pride/data/archive/2012/03/PXD000001/erwinia_carotovora。rda ## Location_Prefix: S3 ## SourceUrl: PRIDE ##物种:Erwinia carotovora ##分类id: 554 ##文件:erwinia_carotovora。fasta##DataProvider: PRIDE ## Maintainer: Laurent Gatto ## RDataClass: AAStringSet ## DispatchClass: AAStringSet ## Tags: Proteomics, TMT6, LTQ Orbitrap Velos, PMID:23692960
的writePahdTemplate
函数准备一个PAHD DCF模板。
writePahdTemplate ()
##标题:一个短标题(一行)##描述:一个较长的描述##源类型:FASTA, mzTab, mzid, mzML,…(只有一个)。##配方:详见ProteomicsAnnotationHubData()Location_Prefix:最终文件的位置。S3或者PRIDE。源文件的位置。S3或者PRIDE。##物种:属物种## TaxonomyId:在http://www.ncbi.nlm.nih.gov/taxonomy中搜索##文件:数据文件名称## DataProvider:原始数据提供者,例如PRIDE。##维护者:您的名字 ## RDataClass:通过AnnotationHub提供的文件类。DispatchClass:调度类。 ## Tags: Useful tags.
##详见ProteomicsAnnotationHubData()。
本节描述如何ProteomicsAnnotationHubData
描述并生成元数据对象。另请参阅AnnotationHub附加文档包。以下是节选PXD000001.dcf
##标题:PXD000001: Erwinia carotovora和插入蛋白fasta文件##描述:四个人类TMT插入蛋白在Erwinia ## carotovora背景中。预期报告离子比例:## Erwinia多肽:1:1:1:1:1;烯醇化酶spike ## (sp|P00924|ENO1_YEAST): 10:5:2.5:1 .5:10;BSA spike ## (sp|P02769|ALBU_BOVIN): 1:2.5:5:10:5:1;PhosB spike ## (sp|P00489|PYGM_RABIT): 2:2:2:2:1:1;细胞色素C突刺## (sp|P62894|CYC_BOVIN): 1:1:1:1:2。##源类型:FASTA ##配方:ProteomicsAnnotationHubData:::PXD000001FastaToAAStringSet ## RDataPath: pride/data/archive/2012/03/PXD000001/erwinia_carotovora。rda ## Location_Prefix: S3 ## SourceUrl: PRIDE ##物种:Erwinia carotovora ##分类id: 554 ##文件:erwinia_carotovora。fasta##DataProvider: PRIDE ## Maintainer: Laurent Gatto ## RDataClass: AAStringSet ## DispatchClass: AAStringSet ## Tags: Proteomics, TMT6, LTQ Orbitrap Velos, PMID:23692960
一个文件的标题应该总是以它的实验标识符作为前缀,例如
对实验的简短描述,一般只有几行。
这3个字段记录了原始文件的类型/格式以及文件将转换为的R数据类。
|——————-|———|———|———–|————–|——–| |SourceType| mzML | mzTab | mzid | FASTA | MSnSet | |DispatchClass| mzRpwiz | MSnSet | mzRident | AAStringSet | MSnSet | |RDataClass| mzRpwiz | MSnSet | mzRident | AAStringSet | MSnSet |
将数据转换为其R数据类的函数。详情见下文。
R数据文件的路径(有关详细信息,请参阅下面的场景)。
文件位置的路径。使用S3
文件是否存储在Amazon S3实例或骄傲
如果要从PRIDE资源检索该文件。
原始源文件的URL。使用S3
文件是否存储在Amazon S3实例或骄傲
如果要从PRIDE资源检索该文件。
科学种名。
NCBI分类标识符。可以通过在?中搜索物种名称找到http://www.ncbi.nlm.nih.gov/taxonomy.
源文件的名称。
数据的原始提供者。预定义/测试提供程序的列表。
名字 | baseUrl |
---|---|
骄傲 | ftp://ftp.pride.ebi.ac.uk/ |
AHS3 | http://s3.amazonaws.com/annotationhub/ |
资源维护人员的姓名和邮箱地址。
访问的数据AnnotationHub基础设施以不同的形式存在于不同的地点。这些位置可以是用户的计算机、AnnotationHub Amazon S3实例和原始数据提供者。可能会出现多种情况:
数据来自提供者的公共存储库。它直接从第三方服务器提供给用户,可能带有本地处理/强制,并作为Bioconductor数据对象可访问。
数据来自提供者的公共存储库。但是,转换到Bioconductor数据对象很耗时,或者预计会重复多次。因此,根据请求,数据将被复制、处理并存储在AnnotationHub Amazon S3实例和服务器上。
原始文件不能从数据提供程序获得,而是存储在AnnotationHub Amazon S3实例中,并且可能进行了预处理。根据用户的要求,它被提供给用户。
的配方
一个短函数,通常命名为NameOfDataOrigformatToFinalformat
,通常将原始数据转换为与R/Bioconductor兼容的数据,或允许使用特殊的数据访问器直接读取数据。
例如,对一些人来说fasta
文件中,recipe函数使用Rsamtools: indexFa
函数创建索引文件,而不转换原始文件。同样,原始质谱文件也不转换为物体本身,但是生成一个访问器对象直接从数据文件中提取数据。
Location_Prefix
要么是S3
,当用户要加载/读取的文件存在于AH Amazon S3实例中时,或骄傲
当它存在PRIDE ftp服务器上时。(这些将被.amazonBaseUrl
而且.prideBaseUrl
分别在数据准备期间。)
SourceUrl
原始文件的完整位置。这通常是第三方服务器,但也不一定。
RDataPath
是要读入R并提供给用户的文件的路径和文件名。此字段不包含服务器地址(.prideBaseUrl
/骄傲
或.amazonBaseUrl
/S3
,请参阅Location_Prefix
).
元数据列表,用于创建AnnotationHubResources
也使用了SourceBaseUrl
,这是完整的url减去文件名(在文件
)的原始档案。用于构造SourceUrl
.
参考上面描述的场景
从第三方资源下载的文件,在我们的例子中是PRIDE,并直接加载到R中,无需任何预处理:
配方
论点必须NA
.在DCF文件中保留空。Location_Prefix
应该是骄傲
(.prideBaseUrl
).RDdataPath
应该是子(。prideBaseUrl, "", SourceUrl)
SourceUrl
应该是第三方服务器上的实际完整url。如果数据是预处理的,则a配方
必须提供。
一个来自PXD000001
数据集是原始的mzML
文件,该文件直接从PRIDE服务器下载,并作为mzRpwiz
对象:
SourceType: mzML RDataClass: mzRpwiz Recipe: NA Location_Prefix: ftp://ftp.pride.ebi.ac.uk/ RDataPath: pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210。mzML SourceUrl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210.mzML
需要从第三方提供商(如PRIDE服务器、预处理和预处理产品)下载的文件存储在AnnotationHub Amazon s3机器上。用户直接从Amazon S3实例中获取对象:
配方
论点不应该是NA
.Location_Prefix
应该是的.amazonBaseUrl
.RDataPath
之后应该对应目录结构吗.amazonBaseUrl
在Amazon s3实例上。通常,Amazon S3实例上的目录结构模仿原始服务器上的目录结构。SourceUrl
应该是第三方服务器上的实际url。一个来自PXD000001
数据集是fasta
文件。它起源于PRIDE ftp服务器,而被加工成和AAStringSet
并存储在AnnotationHub Amazon S3实例上。
SourceType: FASTA RDataClass: AAStringSet Recipe: ProteomicsAnnotationHubData:::PXD000001FastaToAAStringSet Location_Prefix: http://s3.amazonaws.com/annotationhub/ RDataPath: pride/data/archive/2012/03/PXD000001/erwinia_carotovora。rda SourceUrl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001/erwinia_carotovora.fasta
另一个例子是mzTab
包含肽级定量数据的文件,该文件从Amazon实例中作为MSnSet
对象。
SourceType: mzTab RDataClass: MSnSet Recipe: ProteomicsAnnotationHubData:::PXD000001MzTabToMSnSet Location_Prefix: http://s3.amazonaws.com/annotationhub/ RDataPath: pride/data/archive/2012/03/PXD000001/F063721.dat-MSnSet。rda SourceUrl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001/F063721.dat-mztab.txt
原始数据文件和Bioconductor数据对象存储在AnnotationHub Amazon S3实例上,并根据请求直接提供给用户。
一个来自PXD000001
数据集是mzid
文件,该文件从PRIDE ftp服务器上不可用(只有一个Macotdat
文件提供)。
SourceType: mzid RDataClass: mzRident Recipe: NA Location_Prefix: http://s3.amazonaws.com/annotationhub/ RDataPath: pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210。mzid SourceUrl: http://s3.amazonaws.com/annotationhub/pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210.mzid
完全完成的DCF文件被添加到r Biocpkg(“ProteomicsAnnotationHubData”)
的extdata
目录,并根据数据集的标识符命名贴现
扩展。
一旦上述元数据在一个或多个DCF文件中准备好,就可以将它们读入RPAHD
.新增数据准备脚本如果您有新的数据类型,请联系r Biocpkg(“ProteomicsAnnotationHubData”)
的维护者。r Biocpkg(“ProteomicsAnnotationHubData”)
的脚本
目录中。下面是的前四行PXD000001。R
:
## library("AnnotationHubData") ## ## PXD000001 <- PAHD("../extdata/PXD000001.dcf")
准备脚本的其余部分从AnnotationHubData包来创建有效的AnnotationHubMetadata
实例。对象中的元数据对象序列化是非常重要的extdata
目录,因为这些将在下面描述的单元测试中使用。
类型时才需要准备器函数和食谱rda
文件是在AnnotationHub
Amazon S3实例。
下面是的相关函数mzRpwiz
,mzRIdent
,MSnSet
而且AAStringSet
资源。这些定义在r Biocpkg(“AnnotationHub”)
/ R / AnnotationHubProteomicsResource-class。R
文件。
setClass("mzRpwizResource", contains="AnnotationHubResource") setMethod("。get1", "mzRpwizResource", function(x,…){.require("mzR") yy <- cache(.hub(x)) mzR::openMSfile(yy, backend = "pwiz")})
setClass("mzRidentResource", contains="AnnotationHubResource") setMethod("。get1", "mzRidentResource", function(x,…){.require("mzR") yy <- cache(.hub(x)) mzR::openIDfile(yy)})
setClass("MSnSetResource", contains="RdaResource") setMethod("。get1", "MSnSetResource", function(x,…){.require("MSnbase") callNextMethod(x,…)})
setClass("AAStringSetResource", contains="AnnotationHubResource") setMethod("。get1", "AAStringSetResource", function(x,…){.require("Biostrings") yy <- cache(.hub(x)) Biostrings::readAAStringSet(yy)})
如果您有新的数据类型,请联系r Biocpkg(“ProteomicsAnnotationHubData”)
的维护者。
当添加新的数据/实验甚至文件类型时,程序添加新的AnnotationHub
项目将被精简、修订、简化,并有望实现自动化。为了确保这些更新不会改变格式/注释,设置了一组特定于实验的单元测试,比较在这个包中创建的元数据和从中提取的元数据AnnotationHub
.
请看例子/测试/ testthat / test_PXD000001.R
.