库(BiocStyle)图书馆(HPAanalyze)图书馆(dplyr)
人类的蛋白质图谱(HPA)是一个全面的资源勘探的人类蛋白质组包含大量的蛋白质组学、转录组数据生成的基于抗体的组织微阵列分析和RNA深度排序。
程序生成的蛋白质表达谱在人体正常组织细胞特定类型表达模式,癌症和通过一个创新的immunohistochemistry-based方法细胞系。这些资料都伴随着大量的高质量的组织学染色图片,带注释的临床数据和量化。蛋白质的数据库还包括分类功能类(如转录因子或激酶)和项目相关类(如癌症)的候选基因。从4.0版开始,HPA包括亚细胞位置概要文件生成的基于共焦图像immunofluorescent染色细胞。在一起,这些数据提供了一个详细的图片的蛋白表达在人类细胞和组织,促进组织的诊断和研究。
HPA通过proteinatlas.org网站免费提供的数据,允许科学家访问和数据合并到他们的研究。在此之前,R包hpar已经创建了HPA数据的快速和容易的编程访问。在这里,我们介绍HPAanalyze,R包旨在简化探索性数据分析与数据,以及提供其他辅助功能hpar。
人类蛋白质图谱计划提供数据主要通过两种机制:完整的数据集的形式下载压缩制表符分隔的文件(. tsv)和单独的条目在XML、RDF和TSV格式。完整的下载数据集包括正常组织,病理(癌症),亚细胞位置和RNA表达数据。单个条目的XML格式是最全面的,提供信息在目标蛋白质,抗体,总结为每个组织从每个样本包括临床数据和详细的数据,包含IHC得分和图像下载链接。
HPAanalyze
概述HPAanalyze
设计完成了三个主要任务:(1)进口,构造子集和导出下载数据集;(2)下载数据集的可视化的探索性分析;(3)使用单独的XML文件。这个方案的目的是为研究人员提供编程经验,但也允许高级用户使用导入的数据。
目前,这是用于正常组织,病理(癌症)和亚细胞位置数据集。最快和最容易的方法是使用默认值hpaVis
。
hpaVis (targetGene = c (“GCH1”、“分”、“SPR”、“DHFR”), targetTissue = c(“小脑”,“大脑皮层”,“海马”),targetCancer = c(神经胶质瘤))# >没有提供数据。使用21.1版本。# > targetCellType变量未指定,可视化。# > *警告:targetCellType变量未指定,可视化。# > > >使用hpaListParam()列出可能的值为目标变量。# >使用hpaListParam()列出可能的值为目标变量。
当然,我们不能想象一切都在那些大的数据集,所以一些defauts将使用,您将会收到一些警告信息。
hpaVis() #没有提供数据。使用版本……# targetGene变量未指定,默认为TP53 RB1, MYC、喀斯特、表皮生长因子受体。# targetTissue变量未指定,默认为乳房。# targetCellType变量未指定,可视化。# *警告:targetCellType变量未指定,可视化。# > >使用hpaListParam()列出可能的值为目标变量。# targetCancer变量未指定,默认为乳腺癌#使用hpaListParam()列出可能的值为目标变量。
您还可以使用hpaVis
显示只有一个或两三个图表。
hpaVis (visType =“Patho targetGene = c (“GCH1”、“分”、“SPR”、“DHFR”), targetCancer = c(“神经胶质瘤”,“乳腺癌”))# >没有提供数据。使用21.1版本。
一个例外,如果你想把所有癌症,使用hpaVisPatho
与targetCancer =零
(默认)。
hpaVisPatho (targetGene = c (“GCH1”、“分”、“SPR”、“DHFR”)) # >没有提供数据。使用21.1版本。# > *警告:targetCancer变量未指定,可视化。# > > >使用hpaListParam()列出可能的值为目标变量。
有很多方法你可以定制你的阴谋。请参阅文档以了解更多的细节。
雨伞? hpaVis #容易想象蛋白表达水平? hpaVisTissue #在正常组织? hpaVisSubcell #在亚细胞车厢? hpaVisPatho #在癌症
如果你想知道你可以想象什么样的数据,使用hpaListParam
。你将收到一个参数可以使用列表。请注意,如果你问的函数绘制的东西不是在这个名单上,他们只会忽略它,情节是可用的。
hpaListParam ()
# >没有提供数据。使用21.1版本。# > 2 #列表> $ normal_tissue: 2 #列表> . .组织:美元对应[1:63]“脂肪组织”“肾上腺”“附录”“骨髓”…# > . .$ cell_type:空空的[1:141]“组织”“腺体细胞”“淋巴组织”“造血细胞”…# > $病理学:列表1 # > . .癌症:美元对应[1:20]“乳腺癌”“良性肿瘤”“宫颈癌”“直肠癌”…
HPA提供数据在两个不同的格式:更方便用于总结数据表hpaVis
功能,为每个样本和详细的注释数据和xml格式的每个抗体。有一个xml对于每一个蛋白质,含有HPA所产生的所有数据。然而,从这些xml文件中提取信息到一个整洁的格式是一个挑战。的hpaXml
旨在帮助您轻松地访问这个功能。
最简单的方法是使用伞hpaXml ()
函数。请注意,目前这个函数只接受运用基因id。
表皮生长因子受体< - hpaXml (inputXml = ENSG00000146648)名称(EGFR) # > [1]“ProtClass”“TissueExprSum”“抗体”“TissueExpr”
这个函数将返回一个列表。第一项ProtClass
是已知的,并预测类查询的蛋白质。第二项TissueExprSum
给你的快速摘要蛋白表达在正常组织和图像url下载一个代表形象。第三项抗体
提供信息在所有抗体HPA用来查询蛋白质染色。
最后一项TissueExpr
是数据帧的列表,一个用于每个抗体。每一行将所有可用的关于样品沾抗体(临床数据,通过包含IHC蛋白表达和Url下载原始图像)。如果你找到一个空的数据帧,这意味着抗体是仅用于如果染色确定亚细胞位置。目前HPAanalyze不支持提取数据。
为了更好地理解输出,请阅读文档hpaXml
的功能,这被称为引擎盖下hpaXml ()
。
? hpaXmlGet #导入xml文件作为“xml_document”? hpaXmlProtClass ? hpaXmlTissueExprSum ? hpaXmlAntibody ? hpaXmlTissueExpr
安特兰,2018 - 2022
请列举:Tran, A.N.Dussaq,点Kennell t . et al . HPAanalyze: R包,促进了人类的蛋白质图谱数据的检索和分析。BMC生物信息学463 (2019)https://doi.org/10.1186/s12859 - 019 - 3059 - z