库(BiocStyle)库(HPAanalyze)图书馆(dplyr)图书馆(xml2)

1这个案子

人类的蛋白质图谱允许您下载每个蛋白质非常详细的数据以xml文件的形式,和hpaXmlGethpaXml允许您从HPA服务器和检索这些文件自动解析。然而,由于技术限制,您将无法保存/“xml_document xml_node”对象。问题是:如何保持这些文件的一个版本使用当你没有连接到互联网,或再现性?

2解决方案

2.1下载并保持自己本地版本的xml文件

看一下“可下载的数据”从HPA网站页面,您将看到如何下载这些文件。基本上,你添加[ensembl_id] . xmlhttp://www.proteinatlas.org(这就是下载单个条目hpaXmlGet幕后),或下载吗整个大集合

从那里,您可以导入文件使用xml2: read_xml ()。输出应该一模一样hpaXmlGet

# #一样hpaXmlGet (“ENSG00000134057”) CCNB1xml < - xml2:: read_xml(“数据/ ENSG00000134057.xml”)

2.2一切照旧,hpaXml功能

自伞函数hpaXml取的运用id或进口xml_document对象,您可以养活你刚才进口,得到预期的结果。

CCNB1_parsed < - hpaXml (CCNB1xml)

您当然可以使用hpaXml功能。

hpaXmlProtClass (CCNB1xml) hpaXmlTissueExprSum (CCNB1xml) hpaXmlAntibody (CCNB1xml) hpaXmlTissueExpr (CCNB1xml)

2.3保存解析对象

建议您保存解析对象的再现性。不像xml_document解析对象,这些对象是普通R标准向量或数据帧列表。你可以拯救他们。

saveRDS (CCNB1_parsed,“数据/ CCNB1_parsed.rds”)