内容

1介绍

综合归档公司测序实验是有价值的实质性和方法论进步在多个领域。

HumanTranscriptomeCompendium包提供交互功能量化和元数据超过180000人类转录组测序。

2访问能够量化

BiocFileCache是用于管理访问收藏的关于纲要内容元数据。默认情况下,htx_load将加载缓存和建立一个连接到远程HDF5量化的代表。数值数据提出在HDF可伸缩的数据服务的一个实例,http://hsdshdflab.hdfgroup.org

# #加载需要名称空间:BiocFileCache
# #类:RangedSummarizedExperiment # #暗淡:58288 181134 # #元数据(1):rangeSource # #化验(1):计数# # rownames (58288): ENSG00000000003.14 ENSG00000000005.5……# # ENSG00000284747.1 ENSG00000284748.1构成了rowData名称(0):# # # # colnames (181134): DRX001125 DRX001126……SRX999990 SRX999991 # # colData名称(4):experiment_accession experiment_platform # # study_accession study_title
# #加载所需的包:rhdf5client
# # < 58288 x 181134 >矩阵类DelayedMatrix和类型的“双重”:# # DRX001125 DRX001126……SRX999990 SRX999991 # # ENSG00000000003.14 40.001250 - 1322.844547。1149.0341 - 1430.3955 # # ENSG00000000005.5 0.000000 - 9.999964。0.0000 - 0.0000 # # ENSG00000000419.12 64.000031 - 1456.004418。1485.0003 - 1970.0004 # # ENSG00000000457.13 31.814591 - 1583.504257。631.7751 - 802.0563 # # ENSG00000000460.16 12.430602 - 439.321234。945.6903 - 1259.7648 # #……# # ENSG00000284744.1 1.05614505 - 24.81388079。7.316061 - 3.268453 # # ENSG00000284745.1 0.99999879 - 15.99996994。0.000000 - 0.000000 # # ENSG00000284746.1 0.00000000 - 0.00379458。 0.000000 0.000000 ## ENSG00000284747.1 7.77564984 270.83296409 . 108.011633 94.606851 ## ENSG00000284748.1 1.00000768 22.23010514 . 11.278980 5.240970

2.1识别单细胞RNA-seq研究

我们使用原油模式匹配研究中标题识别单个细胞RNA-seq实验

# # 59886年[1]

现在我们将决定哪些研究。我们将查看标题的单细胞研究来评估这种方法的特异性。

# # 142年[1]

2.2收集大量RNA-seq样品感兴趣的疾病:胶质母细胞瘤

# #类:RangedSummarizedExperiment # #暗淡:58288 662 # #元数据(1):rangeSource # #化验(1):计数# # rownames (58288): ENSG00000000003.14 ENSG00000000005.5……# # ENSG00000284747.1 ENSG00000284748.1构成了rowData名称(0):# # # # colnames (662): ERX1097381 ERX1097382……SRX972028 SRX972029 # # colData名称(4):experiment_accession experiment_platform # # study_accession study_title

获得的数值,as.matrix(试验())是必要的。

# #警告data.frame (x = x。新,y = y):行名字被发现从一个简短的# #变量和被丢弃

3访问转录水平量化

此功能不可用,直到进一步通知。通过设置genesOnly假的htx_load,我们可以获得一个转录水平版本的纲要。注意,这个版本的样品数量超过两个基因的版本。有两个意想不到的潜在HDF云中的列数组,名字‘X0’和‘X0.1’,这应该被忽略。

4HumanTranscriptomeCompendium资源包

HumanTranscriptomeCompendium包的主要目的

我们将依次解决这些。

4.1访问量化

以下4.4.1htx_load

htx_load有三个参数:remotePath,缓存,genesOnly

genesOnly默认值为TRUE。如果这是真的,HDF数组将使用由能够量化;否则使用的数组将包括转录水平基于Gencode第二十七节的量化模型。

remotePath的路径是一个RDS-formatted RangedSummarizedExperiment实例已经准备包括DelayedArray量化的hsd表示的引用。具体的设置取决于使用参考genesOnly。默认值目前引用一个AWS S3 bucket检索RDS。

缓存是一个实例BiocFileCache,RDS将根据需要存储和检索。

一个典型的使用htx = htx_load ()这有效地设置htx给访问能够量化。这样的一个命令发布后,试验(htx [G S])的DelayedMatrix特征吗G在样品年代。如果G年代太长,hsd可能返回一个错误。系统的组块大请求是未来发展的一个主题。

4.1.2htx_query_by_study_accession

htx_query_by_study_accession有一个强制性的论证,study_accessions。这个函数使用htx_load准备SummarizedExperiment DelayedArray化验数据,样本有限的研究中列出的特征矢量参数study_accessions。可选参数被传递给这个函数htx_load

4.1.3htx_app

htx_app没有参数。它启动一个闪亮的应用程序列表大小的研究,研究加入号码,和研究标题。用户可以搜索标题使用正则表达式,可以要求检索多个研究。研究SummarizedExperiment返回。这用于r是一个更高级的查询/检索应用程序在vjcitn.shinyapps.io / cancer9k原型。cancer9k应用程序提供了一个“搜索引擎”——能力富裕sample-level属性的集合。看到包在vjcitn / htxapp cancer9k来源相关。

4.2基本元数据

许多本节中描述的功能利用SRAdbV2 github.com/seandavi/SRAdbV2包管理。如果这个包没有安装,所述的一些功能将会失败。

4.2.1bigrnaFiles

这是一个向量的长度3829708。它提供了所有相关的鲑鱼输出文件相对路径在BigRNA开发项目。

4.2.2experTable, studTable

这是一个与294174年data.frame行6列。这是一个记录的所有SRA实验通过SRAdbV2检索元数据是截至2018年6月28日。studTable提供了每个实验研究的标题。

4.2.3sampleAtts ()

这个函数使用SRAdbV2实时获取学习水平元数据组件的示例。属性的选择加入SRA研究数字。

4.2.4tx2gene_gencode27 ()

该函数读取tx2gene.gencode.v27.csvtximportData

4.2.5uniqueAcc_120518

一个特征向量加入186011个不同的实验数据。

4.2.6HumanTranscriptomeCompendium.colnames

181136年一个向量的列名称字符串给转录水平量化。

4.2.7addRD ()

该实用程序将构成了rowData组件添加一个的结果htx_load (,……,genesOnly =真正的)基因类型,基因id、名称、和哈瓦那基因为每一行。

4.3验证工具

生产HumanTranscriptomeCompendium有相当的复杂性。有一个持久的存储库的鲑鱼输出

http://bigrna.cancerdatasci.org/results/human/27/ * / aux_info / meta_info.json

在实验中加入*的替代品。procExpToGene需要加入一个实验数量和实现的鲑鱼量化用户在表单中

> str (nn)列表4 $丰富:num (1:58288 1) 22.8668 0.0286 32.8925 2.9392 4.1314……- attr (*, dimnames) =列表2 . . . .美元:chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ counts : num [1:58288, 1] 2427 2 1744 634 662 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ length : num [1:58288, 1] 1962 1294 980 3984 2964 ... ..- attr(*, "dimnames")=List of 2 .. ..$ : chr [1:58288] "ENSG00000000003.14" "ENSG00000000005.5" "ENSG00000000419.12" "ENSG00000000457.13" ... .. ..$ : NULL $ countsFromAbundance: chr "lengthScaledTPM"

这可以用来检查的准确性在hsd的图像数据。

5评论动机

我们主要关心的是提供一个统一的和合理有效的访问统一预处理SRA RNA-seq研究。提供了量化HDF可伸缩数据服务的一个实例。的Biocpkg (“restfulSE”)Biocpkg (“rhdf5client”)包允许审讯的服务通过熟悉SummarizedExperiment-based编程。

有用的量化并非都是缺乏准确的元数据(尽管大规模的无监督学习过程肯定是可行的没有这样的元数据)。因此我们也花了很大的精力精简sample-level元数据的采集和绑定。

下面是一个元数据模型的草图SRA的贡献。

元数据模型

元数据模型

”样本。属性可以有更多(或更少)比描述的信息。事实上,在一些研究中,稀疏的设置似乎被使用。

稀疏的属性

稀疏的属性

我们想让它非常易于使用的API为SRA设置由肖恩·戴维斯的元数据。

时髦的看

时髦的看

昂首阔步SRAdbV2

昂首阔步SRAdbV2

然而,实时查询可能是乏味的和/或脆弱。因此,我们采取的快照示例。组件属性研究,序列化csv,索引使用parseDoc实用工具ssrch,生产支持交互式搜索使用selectize散列的环境。js功能。这些细节是在ssrch包。