CTDquerier 1.5.0
比较毒性基因组学数据库(CTDbase;http://ctdbase.org)是毒理学基因组信息的公共资源,由同行评议的科学文献手工整理,提供有关环境化学物质与基因产物的相互作用及其对人类疾病的影响的关键信息[1][2].
CTDquerier
R包CTDquerier
是一个允许R用户下载基本数据的R包CTDbase关于基因化学物质和疾病一旦用户的输入被验证,允许查询CTDbase从其他模块下载给定输入的信息。
CTDbase提供基于web的公共界面,包括基本和高级查询选项,用于访问序列、引用和有毒药剂的数据,以及用于分析序列的平台。
为了查询CTDbase用一个单一的术语(aka。一种基因,一种化学物质或一种疾病)的用户可以访问门户网站并使用关键字搜索.
寻找其中的关联CTDbase对于下面的一组感兴趣的基因,意味着使用这个接口执行10个查询。
在搜索词条后显示所获得的结果的摘要页XKR4:
的批量查询工具(http://ctdbase.org/tools/batchQuery.go)是由CTDbase并允许下载与一组化学物质、疾病和基因相关的自定义数据。
给定一组术语,该工具允许下载(如. tsv
,. xml
,…)策划或推断的数据CTDbase与利息相关的条款。表格1根据输入项指示可用数据的类型,为C
策划,我
推断,E
丰富和一个
所有人。
数据可用/输入数据 | 化学物质 | 疾病 | 基因 |
---|---|---|---|
Chemical-gene交互 | C | C | |
化学协会 | A, C,我 | C | |
基因关联 | C | A, C,我 | C |
疾病协会 | A, C,我 | A, C,我 | |
通路关联 | I, E | 我 | C |
基因本体关联 | A, E | 一个 |
从查询中获得的结果表CTDbase使用批量查询基因工具XKR4并要求相关的化学品和相关的疾病(策展,推断和所有)都包括在内CTDquerier
R包(查询执行2018/JAN/02)。
这四个文件可以按如下方式加载:
#化学品-系统。文件(paste0("extdata", . platform $file. txt)bq_xkr4_chem 9月。”tsv"), package=" ctdquery ") nrow(read.delim(bq_xkr4_c, sep =" \t"))
## [1] 18
#疾病策划- XKR4 bq_xkr4_dC <-系统文件(paste0("extdata", . platform $file. txt)bq_xkr4_disease_curated 9月。”tsv"), package=" ctdquery ") nrow(read.delim(bq_xkr4_dC, sep =" \t"))
## [1]
#疾病推断- XKR4 bq_xkr4_dI <-系统。文件(paste0("extdata", . platform $file. txt)bq_xkr4_disease_inferred 9月。”tsv"), package=" ctdquery ") nrow(read.delim(bq_xkr4_dI, sep =" \t"))
## [1] 1339
#疾病全部- XKR4 bq_xkr4_dA <-系统文件(paste0("extdata", . platform $file. txt)bq_xkr4_disease_all 9月。”tsv"), package=" ctdquery ") nrow(read.delim(bq_xkr4_dA, sep =" \t"))
## [1] 1340
从这些文件中我们可以看到XKR4有,根据CTDbase其中,18个与化学物质有关,1个与疾病有关,1339个与疾病有关,1340个与疾病有关(包括已策划的和已推断的)。必须指出,这些关联并不是唯一的。
CTDquerier
的CTDquerier
允许将相关信息下载到单个或一组基因的功能query_ctd_gene
:
库(ctdquerer) xkr4 <- query_ctd_gene(terms = " xkr4 ", verbose = TRUE)
##在.get_cache()中警告:/home/biocbuild/.cache/CTDQuery
##使用临时缓存/tmp/RtmpRHEOpp/BiocFileCache
##从CTDbase下载基因词汇
##加载基因词汇。
##在.get_cache()中警告:/home/biocbuild/.cache/CTDQuery
##使用临时缓存/tmp/RtmpRHEOpp/BiocFileCache
# # 1 / tmp / RtmpRHEOpp / BiocFileCache / 592453443 d9_ctd_genes.tsv.gz
## load_ctd_gene()中的警告:1/tmp/RtmpRHEOpp/BiocFileCache/ ## 592453443d9_CTD_genes.tsv.gz
# # 1 / tmp / RtmpRHEOpp / BiocFileCache / 592453443 d9_ctd_genes.tsv.gz
## load_ctd_gene()中的警告:1/tmp/RtmpRHEOpp/BiocFileCache/ ## 592453443d9_CTD_genes.tsv.gz
基因“XKR4”(114786)的启动查询
# #。下载“基因-基因相互作用”表。
# #。下载“疾病”表。
# #。下载“基因-化学相互作用”表。
# #。下载“GO术语”表。
# #。下载“KEGG路径”表。
##。XKR4没有可用的“KEGG路径”表
xkr4
# #类的CTDdata的对象 ' ## ------------------------- ## .类型:基因##。长度:1 ##。项目:XKR4 ##。疾病:800 (NA / 800) ##。基因-基因相互作用:1(1)##。基因-化学相互作用:19(30)##。KEGG路径:0(-)##。GO条件:2 (2)
该查询显示从其中下载了25个基因化学相互作用CTDbase.仔细观察它们,我们发现它们与从批量查询工具。
在结果对象中有多少独特的化学关联?xkr4_chem <- get_table(xkr4, index_name = "chemical interactions")名称)
19 . ## [1]
使用CTDquerier下载的化学品中有多少是在批量查询文件中?Bq_xkr4_c <- read.delim(Bq_xkr4_c, sep = "\t")character(bq_xkr4_c[, 2]) %in% unique(xkr4_chem$Chemical.)名称)
## [1]
在疾病关联方面,检索到的数据为XKR4与CTDqurier
表明有762种基因与疾病相关。
(get_table(xkr4, index_name = "diseases"))
## [1] 800
这762个基因-疾病关联对应于从批量查询一种被独特疾病过滤的疾病:
bq_xkr4_dA <- read.delim(bq_xkr4_dA, sep = "\t") length(unique(bq_xkr4_dA$ disease eid))
762
(如求和。character(unique(bq_xkr4_dA$Disease eid)) %in% get_table(xkr4, index_name = "diseases")$Disease。ID)
761
所得到的结果之间的关联数量的差异批量查询从CTDquerier
对应于两个表中化学物质的嵌套方式。而在结果中批量查询每个关联都有一行:
bq_xkr4_dA [1:3]
## X..输入疾病名疾病id基因符号基因id疾病类别## 1 xkr4腹痛MESH:D015746 xkr4 114786体征和症状## 2 xkr4腹痛MESH:D015746 xkr4 114786体征和症状## 3 xkr4腹痛MESH:D015746 xkr4 114786体征和症状##疾病类别1体征和症状丙基硫脲嘧啶10.25 ## 2体征和症状维甲酸10.25 ## 3体征和症状丙戊酸10.25 ## 1 NA 15822032|15879050 ## 2 NA 9234591 ## 3 NA 6206716
结果是CTDquerier
疾病只有一个条目,而不是我们在上一个表格中看到的每种疾病-化学物质批量查询.这是从结果中可见的CTDquerier
只有一个条目腹部疼痛并且把这三种化学物质集中在一起字符串
进入纵队推理。网络
:
tbl <- get_table(xkr4, index_name = "diseases") tbl[tbl$疾病。ID == "MESH:D015746", "推理。网络”)
“砷|丙基硫脲嘧啶|维甲酸|丙戊酸”
## R版本3.6.0(2019-04-26)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 18.04.2 LTS下## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.10-bioc/R/lib/libRblas。所以## LAPACK: /home/biocbuild/bbs-3.10-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_US。UTF-8 LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats graphics grDevices utils datasets methods基础## ##其他附加包:## [1]CTDquerier_1.5.0 BiocStyle_2.13.0 ## ##通过命名空间加载(且未附加):## [1] Rcpp_1.0.1 compiler_3.6.0 pillar_1.3.1 ## [4] BiocManager_1.30.4 dbplyr_1.4.0 bitops_1.0-6 ## [10] BiocFileCache_1.9.0 RSQLite_2.1.1 evaluate_0.13 ## [13] memoise_1.1.0 tibble_2.1.1 pkgconfig_2.0.2 ## [16] rlang_0.3.4 DBI_1.0.0 curl_3.3 ## [19] yaml_2.2.0 parallel_3.6.0 xfun_0.6 ## [22] httr_1.4.0 string_1 .4.0 dplyr_0.8.0.1 ## [28] tidyselect_0.2.5 stats4_3.6.0 rappdirs_0.3.1 ## [31] glue_1.3.1 ## # [31] glue_1.3.1## [37] magrittr_1. 1.5 htmltools_0.3.6 biocgenerics_0.0.31.0 ## [40] stringdist_0.9.5.1 assertthat_0.2.1 stringi_1.4.3 ## [43] RCurl_1.95-4.12 crayon_1.3.4
1.比较毒性基因组学数据库(ctd)。2003.
2.戴维斯AP JR格隆丁CJ。比较毒理基因组学数据库:2017年更新。2017.