库(BiocStyle)图书馆(HPAanalyze)图书馆(dplyr)

1背景

人类的蛋白质图谱(HPA)是一个全面的资源勘探的人类蛋白质组包含大量的蛋白质组学、转录组数据生成的基于抗体的组织微阵列分析和RNA深度排序。

程序生成的蛋白质表达谱在人体正常组织细胞特定类型表达模式,癌症和通过一个创新的immunohistochemistry-based方法细胞系。这些资料都伴随着大量的高质量的组织学染色图片,带注释的临床数据和量化。蛋白质的数据库还包括分类功能类(如转录因子或激酶)和项目相关类(如癌症)的候选基因。从4.0版开始,HPA包括亚细胞位置概要文件生成的基于共焦图像immunofluorescent染色细胞。在一起,这些数据提供了一个详细的图片的蛋白表达在人类细胞和组织,促进组织的诊断和研究。

HPA通过proteinatlas.org网站免费提供的数据,允许科学家访问和数据合并到他们的研究。在此之前,R包hpar已经创建了HPA数据的快速和容易的编程访问。在这里,我们介绍HPAanalyze,R包旨在简化探索性数据分析与数据,以及提供其他辅助功能hpar

1。1不同的下丘脑-垂体-肾上腺轴的数据格式

人类蛋白质图谱计划提供数据主要通过两种机制:完整的数据集的形式下载压缩制表符分隔的文件(. tsv)和单独的条目在XML、RDF和TSV格式。完整的下载数据集包括正常组织,病理(癌症),亚细胞位置和RNA表达数据。单个条目的XML格式是最全面的,提供信息在目标蛋白质,抗体,总结为每个组织从每个样本包括临床数据和详细的数据,包含IHC得分和图像下载链接。

1。2HPAanalyze概述

HPAanalyze设计完成了三个主要任务:(1)进口,构造子集和导出下载数据集;(2)下载数据集的可视化的探索性分析;(3)使用单独的XML文件。这个方案的目的是为研究人员提供编程经验,但也允许高级用户使用导入的数据。

2可视化蛋白质表达数据

目前,这是用于正常组织,病理(癌症)和亚细胞位置数据集。最快和最容易的方法是使用默认值hpaVis

hpaVis (targetGene = c (“GCH1”、“分”、“SPR”、“DHFR”), targetTissue = c(“小脑”,“大脑皮层”,“海马”),targetCancer = c(神经胶质瘤))# >没有提供数据。使用21.1版本。# > targetCellType变量未指定,可视化。# > *警告:targetCellType变量未指定,可视化。# > > >使用hpaListParam()列出可能的值为目标变量。# >使用hpaListParam()列出可能的值为目标变量。

当然,我们不能想象一切都在那些大的数据集,所以一些defauts将使用,您将会收到一些警告信息。

hpaVis() #没有提供数据。使用版本……# targetGene变量未指定,默认为TP53 RB1, MYC、喀斯特、表皮生长因子受体。# targetTissue变量未指定,默认为乳房。# targetCellType变量未指定,可视化。# *警告:targetCellType变量未指定,可视化。# > >使用hpaListParam()列出可能的值为目标变量。# targetCancer变量未指定,默认为乳腺癌#使用hpaListParam()列出可能的值为目标变量。

您还可以使用hpaVis显示只有一个或两三个图表。

hpaVis (visType =“Patho targetGene = c (“GCH1”、“分”、“SPR”、“DHFR”), targetCancer = c(“神经胶质瘤”,“乳腺癌”))# >没有提供数据。使用21.1版本。

一个例外,如果你想把所有癌症,使用hpaVisPathotargetCancer =零(默认)。

hpaVisPatho (targetGene = c (“GCH1”、“分”、“SPR”、“DHFR”)) # >没有提供数据。使用21.1版本。# > *警告:targetCancer变量未指定,可视化。# > > >使用hpaListParam()列出可能的值为目标变量。

有很多方法你可以定制你的阴谋。请参阅文档以了解更多的细节。

雨伞? hpaVis #容易想象蛋白表达水平? hpaVisTissue #在正常组织? hpaVisSubcell #在亚细胞车厢? hpaVisPatho #在癌症

如果你想知道你可以想象什么样的数据,使用hpaListParam。你将收到一个参数可以使用列表。请注意,如果你问的函数绘制的东西不是在这个名单上,他们只会忽略它,情节是可用的。

hpaListParam ()
# >没有提供数据。使用21.1版本。# > 2 #列表> $ normal_tissue: 2 #列表> . .组织:美元对应[1:63]“脂肪组织”“肾上腺”“附录”“骨髓”…# > . .$ cell_type:空空的[1:141]“组织”“腺体细胞”“淋巴组织”“造血细胞”…# > $病理学:列表1 # > . .癌症:美元对应[1:20]“乳腺癌”“良性肿瘤”“宫颈癌”“直肠癌”…

3获取单个样本数据从人类蛋白质图谱

HPA提供数据在两个不同的格式:更方便用于总结数据表hpaVis功能,为每个样本和详细的注释数据和xml格式的每个抗体。有一个xml对于每一个蛋白质,含有HPA所产生的所有数据。然而,从这些xml文件中提取信息到一个整洁的格式是一个挑战。的hpaXml旨在帮助您轻松地访问这个功能。

最简单的方法是使用伞hpaXml ()函数。请注意,目前这个函数只接受运用基因id。

表皮生长因子受体< - hpaXml (inputXml = ENSG00000146648)名称(EGFR) # > [1]“ProtClass”“TissueExprSum”“抗体”“TissueExpr”

这个函数将返回一个列表。第一项ProtClass是已知的,并预测类查询的蛋白质。第二项TissueExprSum给你的快速摘要蛋白表达在正常组织和图像url下载一个代表形象。第三项抗体提供信息在所有抗体HPA用来查询蛋白质染色。

最后一项TissueExpr是数据帧的列表,一个用于每个抗体。每一行将所有可用的关于样品沾抗体(临床数据,通过包含IHC蛋白表达和Url下载原始图像)。如果你找到一个空的数据帧,这意味着抗体是仅用于如果染色确定亚细胞位置。目前HPAanalyze不支持提取数据。

为了更好地理解输出,请阅读文档hpaXml的功能,这被称为引擎盖下hpaXml ()

? hpaXmlGet #导入xml文件作为“xml_document”? hpaXmlProtClass ? hpaXmlTissueExprSum ? hpaXmlAntibody ? hpaXmlTissueExpr