内容

ProteomicsAnnotationHubData
作者: Gatto Laurent [aut, cre], Sonali Arora [aut]
修改:2021-10-26 15:11:00
编译: 2021年10月26日星期二18:23:40

1简介

关于AnnotationHub

这个包为Bioconductor AnnotationHub web资源提供了一个客户端。AnnotationHub web资源提供了一个中心位置,可以发现基因组文件(例如,VCF,床,假发)和来自标准位置(例如,UCSC, Ensembl)的其他资源。资源包括关于每个资源的元数据,例如,文本描述、标签和修改日期。客户端创建并管理用户检索到的文件的本地缓存,有助于快速和可重复的访问。

的目标ProteomicsAnnotationHubData就是将这一功能扩展到质谱和蛋白质组学数据。

看到AnnotationHub指南而且访问AnnotationHub Web服务说明如何使用它的小插图。

2获取蛋白质组学数据

library("注解枢纽")ah <-注解枢纽()
## snapshotDate(): 2021-10-20
##注释中心60118条记录## # snapshotDate(): 2021-10-20 ## $dataprovider: Ensembl, BroadInstitute, UCSC, ftp://ftp.ncbi.nlm.nih.gov/g…## # $物种:智人,小家鼠,黑腹果蝇,牛牛,…## # $rdataclass: GRanges, TwoBitFile, BigWigFile, EnsDb, Rle, OrgDb, ChainFile…## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags, ## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH5012"]]]' ## ## title ## AH5012 |染色体带## AH5013 | STS标记## AH5014 | FISH克隆## AH5015 | Recomb Rate ## AH5016 | ENCODE Pilot ## ... ...| TxDb.Hsapiens.UCSC.hg38.knownGene.sqlite

我们可以提取来自PRIDE数据库的条目:

查询(啊,“骄傲”)
##注释hub与4条记录## # snapshotDate(): 2021-10-20 ## $dataprovider: PRIDE ## # $species: Erwinia carotovora ## # $rdataclass: mzRpwiz, mzRident, MSnSet, AAStringSet ## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags, ## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH49006"]]' ## ## title ## AH49006 | PXD000001:Erwinia carotovora和插入蛋白fasta文件## AH49007 | PXD000001:肽级定量数据## AH49008 | PXD000001:原始质谱数据## AH49009 | PXD000001: MS-GF+鉴定数据

或者是一个具体的项目

查询(啊,“PXD000001”)
##注释hub与4条记录## # snapshotDate(): 2021-10-20 ## $dataprovider: PRIDE ## # $species: Erwinia carotovora ## # $rdataclass: mzRpwiz, mzRident, MSnSet, AAStringSet ## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, preparerclass, tags, ## # rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH49006"]]' ## ## title ## AH49006 | PXD000001:Erwinia carotovora和插入蛋白fasta文件## AH49007 | PXD000001:肽级定量数据## AH49008 | PXD000001:原始质谱数据## AH49009 | PXD000001: MS-GF+鉴定数据

要查看特定条目的元数据,我们使用它的AnnotationHub条目编号(

啊(“AH49008”)
## snapshotDate(): 2021-10-20 ## # names(): AH49008 ## $dataprovider: PRIDE ## # $species: Erwinia carotovora ## # rdataclass: mzRpwiz ## # $rdatadateadded: 2015-07-31 ## $title: PXD000001:原始质谱数据## # $description:一个Erwinia carotovora中四个人类TMT splikein蛋白…## # $taxonomyid: 554 ## # $genome: NA ## # $sourcetype: mzML ## # $sourceurl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001…## # $sourcesize: NA ## # $tags: c(“蛋白质组学”,“TMT6”,“LTQ Orbitrap Velos”,“PMID:23692960”)## #检索记录与“对象[[“AH49008”]]]”

为了获取实际数据,在这种情况下,原始质谱数据,我们加倍[[

library("mzR") rw <- ah[["AH49008"]]]
##无法检查id: AH49008进行更新##使用以前缓存的版本。
##从缓存加载
##无法检查id: AH49008进行更新##使用以前缓存的版本。
rw
质谱仪文件处理。##文件名:2182f7ac6ab0e_55314扫描次数:7534

在本例中,我们有一个mzRramp类的实例,它可以按照预期进行处理

plot(峰值(rw, 1), type = "h", xlab = "M/Z", ylab = "Intensity")

在上面的简短演示中,我们有直接而且标准化访问原始数据,无需手动打开此原始数据或担心文件格式。数据准备和转换为一个标准Bioconductor数据类型供用户即时使用。这也适用于其他相关数据类型,如鉴定结果,fasta文件或蛋白质肽定量数据。

3.可用的数据集

要列出所有可用的蛋白质组学数据集,可以查询AnnotationHub类中定义的以下变量ProteomicsAnnotationHubData包:

图书馆availableProteomicsAnnotationHubData(“ProteomicsAnnotationHubData”)
## [1] " pxd000001 "

3.1PXD000001

描述

四个人类TMT在Erwinia carotovora背景下拼接蛋白。预期报告离子比例:Erwinia多肽:1:1:1:1:1;烯醇化酶spike (sp|P00924|ENO1_YEAST): 10:5:2.5:1 . 2.5:10;BSA spike (sp|P02769|ALBU_BOVIN): 1:2.5:5:10:5:1;PhosB spike (sp|P00489|PYGM_RABIT): 2:2:2:2:1:1;细胞色素C突刺(sp|P62894|CYC_BOVIN): 1:1:1:1:2。

PRIDE的四个数据文件PXD000001实验是通过AnnotationHub

  1. 原始质谱分析数据来自tmt_erwinia_1ulsike_top10hcd_isol2_45stepped_60min_01 mzml——20141210.文件从PRDIE ftp站点,作为一个mzRpwiz对象,从mzR包中。

  2. 肽水平定量数据来自F063721.dat-mztab.txtPRIDE ftp站点上的文件,作为MSnSet对象,从MSnbase包中。

  3. 蛋白质数据库,通过erwinia_carotovora.fasta文件从PRIDE ftp服务器,作为一个AAStringSet对象,从Biostrings包中。

  4. 识别结果,产生使用MSGF +搜索引擎,作为一个mzRident对象,从mzR包中。

4添加新的数据集

建议更新和/或新的质谱和/或蛋白质组学数据,请将您的建议/请求张贴在生物导体支持站点或者打开github的问题.也可以使用Github拉请求

4.1输入文件

ProteomicsAnnotationHubData版本1.1.2,可以通过编写Debian控制文件(DCF)格式的简单元数据文件来准备提交的数据。DCF是一种简单的格式,用于在纯文本文件中存储键值对,可以方便地由人类直接读写。例如,包的DESCRIPTION文件遵循DCF格式。中详细信息部分read.dcf ?格式的详细说明。

每个DCF文件可以记录一个或多个数据文件,与默认的R规范相反,注释行以支持(不支持内联注释)。这些领域必须下一节将详细介绍这些蛋白质组学标记hubdata (PAHD)文件。

示例,取自/tmp/RtmpwJkpe0/Rinst1a848473fc691/ProteomicsAnnotationHubData/extdata/PXD000001。DCF如下所示:

##标题:PXD000001: Erwinia carotovora和插入蛋白fasta文件##描述:四个人类TMT插入蛋白在Erwinia ## carotovora背景中。预期报告离子比例:## Erwinia多肽:1:1:1:1:1;烯醇化酶spike ## (sp|P00924|ENO1_YEAST): 10:5:2.5:1 .5:10;BSA spike ## (sp|P02769|ALBU_BOVIN): 1:2.5:5:10:5:1;PhosB spike ## (sp|P00489|PYGM_RABIT): 2:2:2:2:1:1;细胞色素C突刺## (sp|P62894|CYC_BOVIN): 1:1:1:1:2。##源类型:FASTA ##配方:ProteomicsAnnotationHubData:::PXD000001FastaToAAStringSet ## RDataPath: pride/data/archive/2012/03/PXD000001/erwinia_carotovora。rda ## Location_Prefix: S3 ## SourceUrl: PRIDE ##物种:Erwinia carotovora ##分类id: 554 ##文件:erwinia_carotovora。fasta##DataProvider: PRIDE ## Maintainer: Laurent Gatto  ## RDataClass: AAStringSet ## DispatchClass: AAStringSet ## Tags: Proteomics, TMT6, LTQ Orbitrap Velos, PMID:23692960

writePahdTemplate函数准备一个PAHD DCF模板。

writePahdTemplate ()
##标题:一个短标题(一行)##描述:一个较长的描述##源类型:FASTA, mzTab, mzid, mzML,…(只有一个)。##配方:详见ProteomicsAnnotationHubData()Location_Prefix:最终文件的位置。S3或者PRIDE。源文件的位置。S3或者PRIDE。##物种:属物种## TaxonomyId:在http://www.ncbi.nlm.nih.gov/taxonomy中搜索##文件:数据文件名称## DataProvider:原始数据提供者,例如PRIDE。##维护者:您的名字 ## RDataClass:通过AnnotationHub提供的文件类。DispatchClass:调度类。 ## Tags: Useful tags.
##详见ProteomicsAnnotationHubData()。

4.2所需的数据和元数据

本节描述如何ProteomicsAnnotationHubData描述并生成元数据对象。另请参阅AnnotationHub附加文档包。以下是节选PXD000001.dcf

##标题:PXD000001: Erwinia carotovora和插入蛋白fasta文件##描述:四个人类TMT插入蛋白在Erwinia ## carotovora背景中。预期报告离子比例:## Erwinia多肽:1:1:1:1:1;烯醇化酶spike ## (sp|P00924|ENO1_YEAST): 10:5:2.5:1 .5:10;BSA spike ## (sp|P02769|ALBU_BOVIN): 1:2.5:5:10:5:1;PhosB spike ## (sp|P00489|PYGM_RABIT): 2:2:2:2:1:1;细胞色素C突刺## (sp|P62894|CYC_BOVIN): 1:1:1:1:2。##源类型:FASTA ##配方:ProteomicsAnnotationHubData:::PXD000001FastaToAAStringSet ## RDataPath: pride/data/archive/2012/03/PXD000001/erwinia_carotovora。rda ## Location_Prefix: S3 ## SourceUrl: PRIDE ##物种:Erwinia carotovora ##分类id: 554 ##文件:erwinia_carotovora。fasta##DataProvider: PRIDE ## Maintainer: Laurent Gatto  ## RDataClass: AAStringSet ## DispatchClass: AAStringSet ## Tags: Proteomics, TMT6, LTQ Orbitrap Velos, PMID:23692960

标题

一个文件的标题应该总是以它的实验标识符作为前缀,例如

描述

对实验的简短描述,一般只有几行。

源类型

这3个字段记录了原始文件的类型/格式以及文件将转换为的R数据类。

|——————-|———|———|———–|————–|——–| |SourceType| mzML | mzTab | mzid | FASTA | MSnSet | |DispatchClass| mzRpwiz | MSnSet | mzRident | AAStringSet | MSnSet | |RDataClass| mzRpwiz | MSnSet | mzRident | AAStringSet | MSnSet |

配方

将数据转换为其R数据类的函数。详情见下文。

RDataPath

R数据文件的路径(有关详细信息,请参阅下面的场景)。

Location_prefix

文件位置的路径。使用S3文件是否存储在Amazon S3实例或骄傲如果要从PRIDE资源检索该文件。

SourceUrl

原始源文件的URL。使用S3文件是否存储在Amazon S3实例或骄傲如果要从PRIDE资源检索该文件。

物种

科学种名。

TaxonomyId

NCBI分类标识符。可以通过在?中搜索物种名称找到http://www.ncbi.nlm.nih.gov/taxonomy

文件

源文件的名称。

DataProvider

数据的原始提供者。预定义/测试提供程序的列表。

维护人员

资源维护人员的姓名和邮箱地址。

标签

从标签Frer。建议的标记列表如下所示。这些建议将随着时间的推移而更新和完善。

##[1]“蛋白质组学”“TMT6”“TMT10”“iTRAQ4”##[5]“iTRAQ8”“LFQ”“SC”“SILAC”##[9]“PMID:1234567”“SWATH”“MSE”“MRM”##[13]“SRM”“PRM”“仪器名称”

4.3数据位置和相关元数据

概述

访问的数据AnnotationHub基础设施以不同的形式存在于不同的地点。这些位置可以是用户的计算机、AnnotationHub Amazon S3实例和原始数据提供者。可能会出现多种情况:

  1. 数据来自提供者的公共存储库。它直接从第三方服务器提供给用户,可能带有本地处理/强制,并作为Bioconductor数据对象可访问。

  2. 数据来自提供者的公共存储库。但是,转换到Bioconductor数据对象很耗时,或者预计会重复多次。因此,根据请求,数据将被复制、处理并存储在AnnotationHub Amazon S3实例和服务器上。

  3. 原始文件不能从数据提供程序获得,而是存储在AnnotationHub Amazon S3实例中,并且可能进行了预处理。根据用户的要求,它被提供给用户。

定义

  • 配方一个短函数,通常命名为NameOfDataOrigformatToFinalformat,通常将原始数据转换为与R/Bioconductor兼容的数据,或允许使用特殊的数据访问器直接读取数据。

    例如,对一些人来说fasta文件中,recipe函数使用Rsamtools: indexFa函数创建索引文件,而不转换原始文件。同样,原始质谱文件也不转换为物体本身,但是生成一个访问器对象直接从数据文件中提取数据。

  • Location_Prefix要么是S3,当用户要加载/读取的文件存在于AH Amazon S3实例中时,或骄傲当它存在PRIDE ftp服务器上时。(这些将被.amazonBaseUrl而且.prideBaseUrl分别在数据准备期间。)

  • SourceUrl原始文件的完整位置。这通常是第三方服务器,但也不一定。

  • RDataPath是要读入R并提供给用户的文件的路径和文件名。此字段不包含服务器地址(.prideBaseUrl/骄傲.amazonBaseUrl/S3,请参阅Location_Prefix).

  • 元数据列表,用于创建AnnotationHubResources也使用了SourceBaseUrl,这是完整的url减去文件名(在文件)的原始档案。用于构造SourceUrl

例子

参考上面描述的场景

场景1

从第三方资源下载的文件,在我们的例子中是PRIDE,并直接加载到R中,无需任何预处理:

  • 配方论点必须NA.在DCF文件中保留空。
  • Location_Prefix应该是骄傲.prideBaseUrl).
  • RDdataPath应该是子(。prideBaseUrl, "", SourceUrl)
  • SourceUrl应该是第三方服务器上的实际完整url。

如果数据是预处理的,则a配方必须提供。

一个来自PXD000001数据集是原始的mzML文件,该文件直接从PRIDE服务器下载,并作为mzRpwiz对象:

SourceType: mzML RDataClass: mzRpwiz Recipe: NA Location_Prefix: ftp://ftp.pride.ebi.ac.uk/ RDataPath: pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210。mzML SourceUrl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210.mzML

场景2

需要从第三方提供商(如PRIDE服务器、预处理和预处理产品)下载的文件存储在AnnotationHub Amazon s3机器上。用户直接从Amazon S3实例中获取对象:

  • 配方论点不应该是NA
  • Location_Prefix应该是.amazonBaseUrl
  • RDataPath之后应该对应目录结构吗.amazonBaseUrl在Amazon s3实例上。通常,Amazon S3实例上的目录结构模仿原始服务器上的目录结构。
  • SourceUrl应该是第三方服务器上的实际url。

一个来自PXD000001数据集是fasta文件。它起源于PRIDE ftp服务器,而被加工成和AAStringSet并存储在AnnotationHub Amazon S3实例上。

SourceType: FASTA RDataClass: AAStringSet Recipe: ProteomicsAnnotationHubData:::PXD000001FastaToAAStringSet Location_Prefix: http://s3.amazonaws.com/annotationhub/ RDataPath: pride/data/archive/2012/03/PXD000001/erwinia_carotovora。rda SourceUrl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001/erwinia_carotovora.fasta

另一个例子是mzTab包含肽级定量数据的文件,该文件从Amazon实例中作为MSnSet对象。

SourceType: mzTab RDataClass: MSnSet Recipe: ProteomicsAnnotationHubData:::PXD000001MzTabToMSnSet Location_Prefix: http://s3.amazonaws.com/annotationhub/ RDataPath: pride/data/archive/2012/03/PXD000001/F063721.dat-MSnSet。rda SourceUrl: ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2012/03/PXD000001/F063721.dat-mztab.txt

场景3

原始数据文件和Bioconductor数据对象存储在AnnotationHub Amazon S3实例上,并根据请求直接提供给用户。

一个来自PXD000001数据集是mzid文件,该文件从PRIDE ftp服务器上不可用(只有一个Macotdat文件提供)。

SourceType: mzid RDataClass: mzRident Recipe: NA Location_Prefix: http://s3.amazonaws.com/annotationhub/ RDataPath: pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210。mzid SourceUrl: http://s3.amazonaws.com/annotationhub/pride/data/archive/2012/03/PXD000001/TMT_Erwinia_1uLSike_Top10HCD_isol2_45stepped_60min_01-20141210.mzid

4.4数据准备脚本

完全完成的DCF文件被添加到r Biocpkg(“ProteomicsAnnotationHubData”)extdata目录,并根据数据集的标识符命名贴现扩展。

一旦上述元数据在一个或多个DCF文件中准备好,就可以将它们读入RPAHD.新增数据准备脚本如果您有新的数据类型,请联系r Biocpkg(“ProteomicsAnnotationHubData”)的维护者。r Biocpkg(“ProteomicsAnnotationHubData”)脚本目录中。下面是的前四行PXD000001。R

## library("AnnotationHubData") ## ## PXD000001 <- PAHD("../extdata/PXD000001.dcf")

准备脚本的其余部分从AnnotationHubData包来创建有效的AnnotationHubMetadata实例。对象中的元数据对象序列化是非常重要的extdata目录,因为这些将在下面描述的单元测试中使用。

填表人的功能

类型时才需要准备器函数和食谱rda文件是在AnnotationHubAmazon S3实例。

下面是的相关函数mzRpwizmzRIdentMSnSet而且AAStringSet资源。这些定义在r Biocpkg(“AnnotationHub”)/ R / AnnotationHubProteomicsResource-class。R文件。

setClass("mzRpwizResource", contains="AnnotationHubResource") setMethod("。get1", "mzRpwizResource", function(x,…){.require("mzR") yy <- cache(.hub(x)) mzR::openMSfile(yy, backend = "pwiz")})
setClass("mzRidentResource", contains="AnnotationHubResource") setMethod("。get1", "mzRidentResource", function(x,…){.require("mzR") yy <- cache(.hub(x)) mzR::openIDfile(yy)})
setClass("MSnSetResource", contains="RdaResource") setMethod("。get1", "MSnSetResource", function(x,…){.require("MSnbase") callNextMethod(x,…)})
setClass("AAStringSetResource", contains="AnnotationHubResource") setMethod("。get1", "AAStringSetResource", function(x,…){.require("Biostrings") yy <- cache(.hub(x)) Biostrings::readAAStringSet(yy)})

如果您有新的数据类型,请联系r Biocpkg(“ProteomicsAnnotationHubData”)的维护者。

4.5测试

实验/数据单元测试

当添加新的数据/实验甚至文件类型时,程序添加新的AnnotationHub项目将被精简、修订、简化,并有望实现自动化。为了确保这些更新不会改变格式/注释,设置了一组特定于实验的单元测试,比较在这个包中创建的元数据和从中提取的元数据AnnotationHub

请看例子/测试/ testthat / test_PXD000001.R