BiocFileCache是用于管理访问收藏的关于纲要内容元数据。默认情况下,htx_load
将加载缓存和建立一个连接到远程HDF5量化的代表。数值数据提出在HDF可伸缩的数据服务的一个实例,http://hsdshdflab.hdfgroup.org
。
# #加载需要名称空间:BiocFileCache
# #类:RangedSummarizedExperiment # #暗淡:58288 181134 # #元数据(1):rangeSource # #化验(1):计数# # rownames (58288): ENSG00000000003.14 ENSG00000000005.5……# # ENSG00000284747.1 ENSG00000284748.1构成了rowData名称(0):# # # # colnames (181134): DRX001125 DRX001126……SRX999990 SRX999991 # # colData名称(4):experiment_accession experiment_platform # # study_accession study_title
# #加载所需的包:rhdf5client
# # < 58288 x 181134 >矩阵类DelayedMatrix和类型的“双重”:# # DRX001125 DRX001126……SRX999990 SRX999991 # # ENSG00000000003.14 40.001250 - 1322.844547。1149.0341 - 1430.3955 # # ENSG00000000005.5 0.000000 - 9.999964。0.0000 - 0.0000 # # ENSG00000000419.12 64.000031 - 1456.004418。1485.0003 - 1970.0004 # # ENSG00000000457.13 31.814591 - 1583.504257。631.7751 - 802.0563 # # ENSG00000000460.16 12.430602 - 439.321234。945.6903 - 1259.7648 # #……# # ENSG00000284744.1 1.05614505 - 24.81388079。7.316061 - 3.268453 # # ENSG00000284745.1 0.99999879 - 15.99996994。0.000000 - 0.000000 # # ENSG00000284746.1 0.00000000 - 0.00379458。 0.000000 0.000000 ## ENSG00000284747.1 7.77564984 270.83296409 . 108.011633 94.606851 ## ENSG00000284748.1 1.00000768 22.23010514 . 11.278980 5.240970
我们使用原油模式匹配研究中标题识别单个细胞RNA-seq实验
# # 59886年[1]
现在我们将决定哪些研究。我们将查看标题的单细胞研究来评估这种方法的特异性。
# # 142年[1]
大部分=genelev (,- - - - - -唱)kpglio =grep(“胶质母细胞瘤”、散装美元study_title,ignore.case =真正的)glioGene =散装(kpglio]glioGene
# #类:RangedSummarizedExperiment # #暗淡:58288 662 # #元数据(1):rangeSource # #化验(1):计数# # rownames (58288): ENSG00000000003.14 ENSG00000000005.5……# # ENSG00000284747.1 ENSG00000284748.1构成了rowData名称(0):# # # # colnames (662): ERX1097381 ERX1097382……SRX972028 SRX972029 # # colData名称(4):experiment_accession experiment_platform # # study_accession study_title
获得的数值,as.matrix(试验())
是必要的。
beeswarm(as.matrix(分析(glioGene [“ENSG00000138413.13”,1:One hundred.))),pwcol =as.numeric(因素(glioGene美元study_title [1:One hundred.))),ylab =“IDH1表达”)
# #警告data.frame (x = x。新,y = y):行名字被发现从一个简短的# #变量和被丢弃
此功能不可用,直到进一步通知。通过设置genesOnly
假的htx_load
,我们可以获得一个转录水平版本的纲要。注意,这个版本的样品数量超过两个基因的版本。有两个意想不到的潜在HDF云中的列数组,名字‘X0’和‘X0.1’,这应该被忽略。
HumanTranscriptomeCompendium包的主要目的
我们将依次解决这些。
htx_load
htx_load
有三个参数:remotePath
,缓存
,genesOnly
。
genesOnly
默认值为TRUE。如果这是真的,HDF数组将使用由能够量化;否则使用的数组将包括转录水平基于Gencode第二十七节的量化模型。
remotePath
的路径是一个RDS-formatted RangedSummarizedExperiment实例已经准备包括DelayedArray量化的hsd表示的引用。具体的设置取决于使用参考genesOnly
。默认值目前引用一个AWS S3 bucket检索RDS。
缓存
是一个实例BiocFileCache
,RDS将根据需要存储和检索。
一个典型的使用htx = htx_load ()
这有效地设置htx
给访问能够量化。这样的一个命令发布后,试验(htx [G S])
的DelayedMatrix特征吗G
在样品年代
。如果G
或年代
太长,hsd可能返回一个错误。系统的组块大请求是未来发展的一个主题。
htx_query_by_study_accession
htx_query_by_study_accession
有一个强制性的论证,study_accessions
。这个函数使用htx_load
准备SummarizedExperiment DelayedArray化验数据,样本有限的研究中列出的特征矢量参数study_accessions
。可选参数被传递给这个函数htx_load
。
htx_app
htx_app
没有参数。它启动一个闪亮的应用程序列表大小的研究,研究加入号码,和研究标题。用户可以搜索标题使用正则表达式,可以要求检索多个研究。研究SummarizedExperiment返回。这用于r是一个更高级的查询/检索应用程序在vjcitn.shinyapps.io / cancer9k原型。cancer9k应用程序提供了一个“搜索引擎”——能力富裕sample-level属性的集合。看到包在vjcitn / htxapp cancer9k来源相关。
许多本节中描述的功能利用SRAdbV2 github.com/seandavi/SRAdbV2包管理。如果这个包没有安装,所述的一些功能将会失败。
这是一个向量的长度3829708。它提供了所有相关的鲑鱼输出文件相对路径在BigRNA开发项目。
这是一个与294174年data.frame行6列。这是一个记录的所有SRA实验通过SRAdbV2检索元数据是截至2018年6月28日。studTable
提供了每个实验研究的标题。
这个函数使用SRAdbV2实时获取学习水平元数据组件的示例。属性的选择加入SRA研究数字。
该函数读取tx2gene.gencode.v27.csv
从tximportData。
uniqueAcc_120518
一个特征向量加入186011个不同的实验数据。
181136年一个向量的列名称字符串给转录水平量化。
该实用程序将构成了rowData组件添加一个的结果htx_load (,……,genesOnly =真正的)
基因类型,基因id、名称、和哈瓦那基因为每一行。
生产HumanTranscriptomeCompendium有相当的复杂性。有一个持久的存储库的鲑鱼输出
http://bigrna.cancerdatasci.org/results/human/27/ * / aux_info / meta_info.json
在实验中加入*的替代品。procExpToGene
需要加入一个实验数量和实现的鲑鱼量化用户在表单中
> str (nn)列表4 $丰富:num (1:58288 1) 22.8668 0.0286 32.8925 2.9392 4.1314……- attr (*, dimnames) =列表2 . . . .美元:chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ counts : num [1:58288, 1] 2427 2 1744 634 662 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ length : num [1:58288, 1] 1962 1294 980 3984 2964 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ countsFromAbundance: chr "lengthScaledTPM"
这可以用来检查的准确性在hsd的图像数据。
5评论动机
我们主要关心的是提供一个统一的和合理有效的访问统一预处理SRA RNA-seq研究。提供了量化HDF可伸缩数据服务的一个实例。的
Biocpkg (“restfulSE”)
和Biocpkg (“rhdf5client”)
包允许审讯的服务通过熟悉SummarizedExperiment-based编程。有用的量化并非都是缺乏准确的元数据(尽管大规模的无监督学习过程肯定是可行的没有这样的元数据)。因此我们也花了很大的精力精简sample-level元数据的采集和绑定。
下面是一个元数据模型的草图SRA的贡献。
元数据模型
”样本。属性可以有更多(或更少)比描述的信息。事实上,在一些研究中,稀疏的设置似乎被使用。
稀疏的属性
我们想让它非常易于使用的API为SRA设置由肖恩·戴维斯的元数据。
时髦的看
昂首阔步SRAdbV2
然而,实时查询可能是乏味的和/或脆弱。因此,我们采取的快照示例。组件属性研究,序列化csv,索引使用parseDoc实用工具ssrch,生产支持交互式搜索使用selectize散列的环境。js功能。这些细节是在ssrch包。