BiocFileCache是用于管理访问收藏的关于纲要内容元数据。默认情况下,htx_load
将加载缓存和建立一个连接到远程HDF5量化的代表。数值数据提出在HDF可伸缩的数据服务的一个实例,http://hsdshdflab.hdfgroup.org
。
图书馆(HumanTranscriptomeCompendium)htx_load() genelev =
# #加载需要名称空间:BiocFileCache
# # RDS添加到本地缓存,未来的调用将使用当地的形象
# #添加rname ' https://bcfound-bigrna.s3.amazonaws.com/rangedHtxGeneSE_317.rds '
genelev
# #类:RangedSummarizedExperiment # #暗淡:58288 181134 # #元数据(1):rangeSource # #化验(1):counts_lstpm # # rownames (58288): ENSG00000000003.14 ENSG00000000005.5……# # ENSG00000284747.1 ENSG00000284748.1构成了rowData名称(0):# # # # colnames (181134): DRX001125 DRX001126……SRX999990 SRX999991 # # colData名称(4):experiment_accession experiment_platform # # study_accession study_title
如果(rhdf5client::check_hsds())分析(genelev)
# # < 58288 x 181134 >矩阵类DelayedMatrix和类型的“双重”:# # DRX001125 DRX001126 DRX001127……SRX999990 # # ENSG00000000003.14 40.001250 1322.844547 1528.257578。1149.0341 # # ENSG00000000005.5 0.000000 9.999964 6.000006。0.0000 # # ENSG00000000419.12 64.000031 1456.004418 2038.996875。1485.0003 # # ENSG00000000457.13 31.814591 1583.504257 1715.041308。631.7751 # # ENSG00000000460.16 12.430602 439.321234 529.280324。945.6903 # #……# # ENSG00000284744.1 1.05614505 24.81388079 32.29261298。7.316061 # # ENSG00000284745.1 0.99999879 15.99996994 16.99999743。0.000000 # # ENSG00000284746.1 0.00000000 0.00379458 0.00000000。 0.000000 ## ENSG00000284747.1 7.77564984 270.83296409 239.88056843 . 108.011633 ## ENSG00000284748.1 1.00000768 22.23010514 37.73881938 . 11.278980 ## SRX999991 ## ENSG00000000003.14 1430.3955 ## ENSG00000000005.5 0.0000 ## ENSG00000000419.12 1970.0004 ## ENSG00000000457.13 802.0563 ## ENSG00000000460.16 1259.7648 ## ... . ## ENSG00000284744.1 3.268453 ## ENSG00000284745.1 0.000000 ## ENSG00000284746.1 0.000000 ## ENSG00000284747.1 94.606851 ## ENSG00000284748.1 5.240970
我们使用原油模式匹配研究中标题识别单个细胞RNA-seq实验
grep(“single.cell”,genelev美元study_title, 唱歌=ignore.case =真正的)长度(唱)
# # 59886年[1]
现在我们将决定哪些研究。我们将查看标题的单细胞研究来评估这种方法的特异性。
美元study_accession(唱) sa =genelev- - - - - -哪一个(复制(sa))) sing2 =唱(长度(sing2)
# # 142年[1]
数据表(as.data.frame(colData(genelev [sing2])),选择=列表(lengthMenu =c(3,5,10,50,One hundred.)))
- - - - - -唱) 大部分=genelev (,grep(“胶质母细胞瘤”、散装美元study_title, kpglio =ignore.case =真正的) glioGene =散装(kpglio] glioGene
# #类:RangedSummarizedExperiment # #暗淡:58288 662 # #元数据(1):rangeSource # #化验(1):counts_lstpm # # rownames (58288): ENSG00000000003.14 ENSG00000000005.5……# # ENSG00000284747.1 ENSG00000284748.1构成了rowData名称(0):# # # # colnames (662): ERX1097381 ERX1097382……SRX972028 SRX972029 # # colData名称(4):experiment_accession experiment_platform # # study_accession study_title
获得的数值,as.matrix(试验())
是必要的。
如果(rhdf5client::check_hsds()){beeswarm(as.matrix(分析(“ENSG00000138413.13”,1:One hundred.))),pwcol =as.numeric(因素(glioGene美元study_title [1:One hundred.))),ylab =“IDH1表达”) glioGene [传说(。6,15000年,传说=独特的(glioGene美元study_accession [1:One hundred.]),坳=1:2,pch =c(1,1)) }
# #警告data.frame (x = x。新,y = y):行名字被发现从一个简短的# #变量和被丢弃
此功能不可用,直到进一步通知。通过设置genesOnly
假的htx_load
,我们可以获得一个转录水平版本的纲要。注意,这个版本的样品数量超过两个基因的版本。有两个意想不到的潜在HDF云中的列数组,名字‘X0’和‘X0.1’,这应该被忽略。
htx_load(genesOnly =假) txlev = txlev
HumanTranscriptomeCompendium包的主要目的
我们将依次解决这些。
htx_load
htx_load
有三个参数:remotePath
,缓存
,genesOnly
。
genesOnly
默认值为TRUE。如果这是真的,HDF数组将使用由能够量化;否则使用的数组将包括转录水平基于Gencode第二十七节的量化模型。
remotePath
的路径是一个RDS-formatted RangedSummarizedExperiment实例已经准备包括DelayedArray量化的hsd表示的引用。具体的设置取决于使用参考genesOnly
。默认值目前引用一个AWS S3 bucket检索RDS。
缓存
是一个实例BiocFileCache
,RDS将根据需要存储和检索。
一个典型的使用htx = htx_load ()
这有效地设置htx
给访问能够量化。这样的一个命令发布后,试验(htx [G S])
的DelayedMatrix特征吗G
在样品年代
。如果G
或年代
太长,hsd可能返回一个错误。系统的组块大请求是未来发展的一个主题。
htx_query_by_study_accession
htx_query_by_study_accession
有一个强制性的论证,study_accessions
。这个函数使用htx_load
准备SummarizedExperiment DelayedArray化验数据,样本有限的研究中列出的特征矢量参数study_accessions
。可选参数被传递给这个函数htx_load
。
htx_app
htx_app
没有参数。它启动一个闪亮的应用程序列表大小的研究,研究加入号码,和研究标题。用户可以搜索标题使用正则表达式,可以要求检索多个研究。研究SummarizedExperiment返回。这用于r是一个更高级的查询/检索应用程序在vjcitn.shinyapps.io / cancer9k原型。cancer9k应用程序提供了一个“搜索引擎”——能力富裕sample-level属性的集合。看到包在vjcitn / htxapp cancer9k来源相关。
许多本节中描述的功能利用SRAdbV2 github.com/seandavi/SRAdbV2包管理。如果这个包没有安装,所述的一些功能将会失败。
这是一个向量的长度3829708。它提供了所有相关的鲑鱼输出文件相对路径在BigRNA开发项目。
这是一个与294174年data.frame行6列。这是一个记录的所有SRA实验通过SRAdbV2检索元数据是截至2018年6月28日。studTable
提供了每个实验研究的标题。
这个函数使用SRAdbV2实时获取学习水平元数据组件的示例。属性的选择加入SRA研究数字。
该函数读取tx2gene.gencode.v27.csv
从tximportData。
uniqueAcc_120518
一个特征向量加入186011个不同的实验数据。
181136年一个向量的列名称字符串给转录水平量化。
该实用程序将构成了rowData组件添加一个的结果htx_load (,……,genesOnly =真正的)
基因类型,基因id、名称、和哈瓦那基因为每一行。
生产HumanTranscriptomeCompendium有相当的复杂性。有一个持久的存储库的鲑鱼输出
http://bigrna.cancerdatasci.org/results/human/27/ * / aux_info / meta_info.json
在实验中加入*的替代品。procExpToGene
需要加入一个实验数量和实现的鲑鱼量化用户在表单中
> str (nn)列表4 $丰富:num (1:58288 1) 22.8668 0.0286 32.8925 2.9392 4.1314……- attr (*, dimnames) =列表2 . . . .美元:chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ counts : num [1:58288, 1] 2427 2 1744 634 662 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ length : num [1:58288, 1] 1962 1294 980 3984 2964 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ countsFromAbundance: chr "lengthScaledTPM"
这可以用来检查的准确性在hsd的图像数据。
5评论动机
我们主要关心的是提供一个统一的和合理有效的访问统一预处理SRA RNA-seq研究。提供了量化HDF可伸缩数据服务的一个实例。的
Biocpkg (“restfulSE”)
和Biocpkg (“rhdf5client”)
包允许审讯的服务通过熟悉SummarizedExperiment-based编程。有用的量化并非都是缺乏准确的元数据(尽管大规模的无监督学习过程肯定是可行的没有这样的元数据)。因此我们也花了很大的精力精简sample-level元数据的采集和绑定。
下面是一个元数据模型的草图SRA的贡献。
元数据模型
”样本。属性可以有更多(或更少)比描述的信息。事实上,在一些研究中,稀疏的设置似乎被使用。
稀疏的属性
我们想让它非常易于使用的API为SRA设置由肖恩·戴维斯的元数据。
时髦的看
昂首阔步SRAdbV2
然而,实时查询可能是乏味的和/或脆弱。因此,我们采取的快照示例。组件属性研究,序列化csv,索引使用parseDoc实用工具ssrch,生产支持交互式搜索使用selectize散列的环境。js功能。这些细节是在ssrch包。