内容

1介绍CellbaseR

这个R包使用了为Cellabase数据库实现的详尽的rest式Web服务API。它使研究人员能够从一个数据库中查询和获取丰富的生物信息,节省了大量的时间。另一个好处是,研究人员可以很容易地对不同的生物学主题进行查询,并将所有信息链接在一起,因为所有信息都是集成的。

2CellbaseR类和方法

2.1CellbaseR类

这是一个S4类,包含连接到Cellbase web服务的基本配置。让我们从加载库开始。

#获得默认CellbaseR对象(人类数据,来自基因组GRCh37)库(CellbaseR) #默认CellbaseR对象如下所示创建cb <- CellbaseR ()

2.2CellbaseR方法

cellbaseR包提供了许多查询cellbase webservices的方法,包括:

  • getGene
  • getSnp
  • getProtein
  • getTranscript
  • getRegion
  • getVariant
  • getClinical
  • getTf
  • getXref

在所有情况下,除了他们创建的CellbaseQuery对象外,用户还需要提供查询的id和要查询的资源。例如,通过cbGene的查询看起来像这样

2.2.1getGene

库(cellbaseR) cb <- cellbaseR()基因<- c("TP73","TET1") res <- getGene(object = cb, ids =基因,资源= "info") str(res,2)
## 'data.frame': 2 obs。## $ id: chr "ENSG00000078900" "ENSG00000138336" ## $ name: chr "TP73" "TET1" ## $ biotype: chr "protein_coding" "protein_coding" ## $ status: chr "已知" "已知" ## $染色体:chr "1" "10" ## $ start: int 3569084 70320413 ## $ end: int 3652765 70454239 ## $ strand: chr "+" "+" ## $ source: chr "Ensembl" "Ensembl" ## $ description:chr“肿瘤蛋白p73[来源:HGNC符号;Acc:HGNC:12003]”“tet甲基胞嘧啶双加氧酶1[来源:HGNC符号;Acc:HGNC:29484]”## $转录本:2 ##列表。$:'data.frame': 14 obs。20个变量:## ..$:'data.frame': 1 obs。## $ annotation:'data.frame': 2 obs。2个变量:##…$ expression:List of 2 ##…$疾病:2
#正如你所看到的res dataframe还包含一个transcripts列#,这实际上是一个嵌套的dataframe列表列,以获得# trasnscripts data.frame的第一个基因TET1_transcripts <- res$transcripts[[1]] str(TET1_transcripts,1)
## 'data.frame': 14 obs。“ENST00000378295”“ENST00000604074”“ENST00000354437”“ENST00000357733”…## $ name: chr“TP73-001”“TP73-006”“TP73-002”“TP73-202”…## $ biotype: CHR“protein_coding”“protein_coding”“protein_coding”“protein_coding”…## $状态:chr "已知" "已知" "已知" "已知" "已知"…## $染色体:CHR“1”“1”“1”“1”…## $ start: int 3569084 3569084 3569129 3569129 3598930 3598930 3607236 3607236 3607236…## $ end: int 3652765 3652765 3649856 3650467 3650467 3649643 3649643 3649856 3649856 3652765…## $ strand: CHR“+”“+”“+”“+”…## $ genomicCodingStart: int 3598930 3598930 3598930 3598930 3598930 3598930 3607470 3607470 3607470 3607470… ## $ genomicCodingEnd : int 3649643 3649326 3649326 3649643 3649643 3649643 3649643 3649326 3648119 3649643 ... ## $ cdnaCodingStart : int 156 156 111 111 111 1 1 235 235 235 ... ## $ cdnaCodingEnd : int 2066 1367 1610 1778 1733 1668 1623 1587 1515 1998 ... ## $ cdsLength : int 1910 1211 1499 1667 1622 1667 1622 1352 1280 1763 ... ## $ proteinID : chr "ENSP00000367545" "ENSP00000475143" "ENSP00000346423" "ENSP00000350366" ... ## $ proteinSequence : chr "MAQSTATSPDGGTTFEHLWSSLEPDSTYFDLPQSSRGNNEVVGGTDSSMDVFHLEGMTTSVMAQFNLLSSTMDQMSSRAASASPYTPEHAASVPTHSPYAQPSSTFDTMSP"| __truncated__ "MAQSTATSPDGGTTFEHLWSSLEPDSTYFDLPQSSRGNNEVVGGTDSSMDVFHLEGMTTSVMAQFNLLSSTMDQMSSRAASASPYTPEHAASVPTHSPYAQPSSTFDTMSP"| __truncated__ "MAQSTATSPDGGTTFEHLWSSLEPDSTYFDLPQSSRGNNEVVGGTDSSMDVFHLEGMTTSVMAQFNLLSSTMDQMSSRAASASPYTPEHAASVPTHSPYAQPSSTFDTMSP"| __truncated__ "MAQSTATSPDGGTTFEHLWSSLEPDSTYFDLPQSSRGNNEVVGGTDSSMDVFHLEGMTTSVMAQFNLLSSTMDQMSSRAASASPYTPEHAASVPTHSPYAQPSSTFDTMSP"| __truncated__ ... ## $ cDnaSequence : chr "TGCCTCCCCGCCCGCGCACCCGCCCGGAGGCTCGCGCGCCCGCGAAGGGGACGCAGCGAAACCGGGGCCCGCGCCAGGCCAGCCGGGACGGACGCCGATGCCCGGGGCTGC"| __truncated__ "TGCCTCCCCGCCCGCGCACCCGCCCGGAGGCTCGCGCGCCCGCGAAGGGGACGCAGCGAAACCGGGGCCCGCGCCAGGCCAGCCGGGACGGACGCCGATGCCCGGGGCTGC"| __truncated__ "AGGGGACGCAGCGAAACCGGGGCCCGCGCCAGGCCAGCCGGGACGGACGCCGATGCCCGGGGCTGCGACGGCTGCAGAGCGAGCTGCCCTCGGAGGCCGGCGTGGGGAAGA"| __truncated__ "AGGGGACGCAGCGAAACCGGGGCCCGCGCCAGGCCAGCCGGGACGGACGCCGATGCCCGGGGCTGCGACGGCTGCAGAGCGAGCTGCCCTCGGAGGCCGGCGTGGGGAAGA"| __truncated__ ... ## $ xrefs :List of 14 ## $ tfbs :List of 14 ## $ exons :List of 14 ## $ annotationFlags :List of 14

2.2.2getRegion

通过cbRegion #做一个查询获取所有临床相关变异#在一个特定的地区图书馆(cellbaseR) cb < cellbaseR (res) < - getRegion(对象= cb id =“17:1000000 - 1005000”,资源=“临床”)#保护所有数据在这个地区res < - getRegion(对象= cb id =“17:1000000 - 1005000”,资源=“保护”)#同样获得同一地区的所有监管数据res < - getRegion(对象= cb id =“17:1000000 - 1005000”,资源=“监管”)str (res, 1)
## 'data.frame': 60 obs。12个变量:## $染色体:CHR“17”“17”“17”“17”…## $来源:chr "ccat_histone" "SWEmbl_R0005_IDR" "SWEmbl_R0005_IDR" "SWEmbl_R0005_IDR"…## $ featureType: chr“H3K27_trimethylation_site”“H3K27_acylation_site”“h3k4_monmethylylation_site”“H3K9_acetylation_site”…## $ start: int 993140 997759 997760 998344 998400 999107 999880 997760 998344 998400…## $ end: int 1004420 1000704 1002709 1000418 1000080 1000583 1000680 1002709 1000418 1000080…## $分数:CHR "。“。”“。”“。” ... ## $ strand : chr "." "." "." "." ... ## $ frame : chr "." "." "." "." ... ## $ name : chr "H3K27me3" "H3K27ac" "H3K4me1" "H3K9ac" ... ## $ featureClass: chr "Histone" "Histone" "Histone" "Histone" ... ## $ alias : chr "K562_H3K27me3_ENCODE_YALE_ccat_histone" "Monocytes-CD14+_H3K27ac_ENCODE_Broad_SWEmbl_R0005_IDR" "Monocytes-CD14+_H3K4me1_ENCODE_Broad_SWEmbl_R0005_IDR" "Monocytes-CD14+_H3K9ac_ENCODE_Broad_SWEmbl_R0005_IDR" ... ## $ cellTypes :List of 60

2.2.3getVariant

获取特定变体的注释

library(cellbaseR) cb <- cellbaseR () res2 <- getVariant(object=cb, ids="1:169549811:A:G", resource="annotation") #获取数据res2 <- cbData(res2) str(res2, 1)

cellbaseR的一个非常强大的功能是能够获取丰富的临床数据,以及通过基因、表型、rs等对这些数据进行拟合。

2.2.4getClinical

library(cellbaseR) cb <- cellbaseR() #首先,我们必须指定一个参数,我们通过创建一个对象的#类CellbaseParam cbparam <- CellbaseParam (feature = "TET1", assembly = "GRCh38", limit = 50) cbparam
CellBaseParam类的一个对象,用于控制cellbaser# #方法返回的结果
#注意cbClinical不需要传递任何id,只需要param#和CellbaseQuery对象res <- getClinical(object=cb,param=cbparam) str(res,1)
## 'data.frame': 50 obs。13个变量:## $染色体:CHR“10”“10”“10”…## $ start: int 68572343 68572352 68572360 68572361 68572362 68572363 68572373 68572384 68572387 68572395…## $参考:chr“C”“G”“A”“G”…## $ alternate: chr“G”“A”“G”“A”…## $ hgvs:List of 50 ## $ displayresulencetype: chr "missense_variant" "missense_variant" "missense_variant" "missense_variant" "missense_variant"…## $ resulencetypes: 50 ## $ conservation: 50 ## $ traitAssociation: 50 ## $ cytoband: 50 ## $ id: chr NA "rs777837034" "rs1057257286" "rs778536892"…## $ populationfrequency: 50人列表## $ repeat: 50人列表

3.cellbaseR包装

cellbaseE包还围绕常见的cellbaseR查询提供了许多包装器函数。这些包括:
—getClinicalByGene—getTranscriptByGene—getGeneInfo—getSnpByGene—getProteinInfo—getClinicalByRegion—getConservationByRegion—getRegulatoryByRegion—getTfbsByRegion—getCaddScores—getVariantAnnotation

4CellbaseR公用事业

4.1CreateGeneModel

一个用于快速构建基因模型的实用工具,与用于基因组可视化的Gviz包兼容

library(cellbaseR) cb <- cellbaseR () test <- createGeneModel(object = cb, region = "17:15万-1550000")if(require("Gviz")){testTrack <- Gviz::GeneRegionTrack(test) Gviz::plotTracks(testTrack, transcriptAnnotation='symbol')}

4.2AnnotateVcf

这个实用工具允许用户直接从cellbase服务器注释从小型到中型vcf文件的基因组变体,具有丰富的基因组注释,包括丰富的临床注释,如clinvar, gwas和cosmic data,以及保存和功能评分,如phast和cadd评分,而不需要下载任何文件。

library(cellbaseR) library(VariantAnnotation) cb <- cellbaseR () fl <-系统。file("extdata", "hapmap_exome_chr22_200.vcf.gz",package = "cellbaseR") res <- AnnotateVcf(object=cb, file=fl, BPPARAM = BPPARAM (workers=2),batch_size = 100) vcf <- readVcf(fl, "hg19") samples(header(vcf))
##[1]“na07034@1099927558”“na07055@1099927615”##[7]“na12239@1099927424”“na12877@1099925716”“na12878@1099927697”##[10]“na12891@1099927856”“na12892@1099927810”“na18503@1099927775”##[16]“na18504@0178873056”“na18505@1099927412”“na18506 @ 10999278650”##[19]“na18913@1099927630”“na18932 @1099927601”“na18912 @1099927867”## #[22]“NA18947@0178875080”
长度(rowRanges (vcf)) = = nrow (res)
##[1]真
str (res, 1)
## data.frame: 200 obs。18个变量:## $染色体:CHR“22”“22”“22”“22”…## $ start: int 16157603 17060707 17072347 17177682 17265124 17326914 17446991 17469049 17602839 17603503…## $参考:chr“G”“G”“C”“C”…## $ alternate: chr“C”“A”“T”“A”…## $ id: CHR“rs370790235”“rs117836313”“rs139948519”“rs3020747”…## $ hgvs: 200 ## $ displayresulencetype: chr "intron_variant" "2KB_downstream_variant" "stop_gained" "non_coding_transcript_exon_variant"…## $ resulencetypes: 200人列表## $ populationfrequency: 200人列表## $ conservation: 200人列表## $ geneExpression: 200人列表## $ geneTraitAssociation: 200人列表## $ geneDrugInteraction: 200人列表## $ functionalScore: 200人列表## $ cytoband: 200人列表## $ repeat: 200人列表## $ variantTraitAssociation:'data.frame': 200 obs。## $ traitAssociation: 200个变量的列表