{r add_column, warning=FALSE, message=FALSE} # model[which(model$type=="Gene"),] #
{r add_column2,警告=FALSE,消息=FALSE} #模型[which(模型$type=="疾病"),]#
InterMine是一个强大的开源数据仓库系统,集成了各种生物的各种生物数据集(例如基因组、表达和蛋白质数据)。集成数据使得运行复杂的数据挖掘查询成为可能,这些查询跨越了生物知识的各个领域。由InterMine提供支持的数据库列表如表1所示:
数据库 | 生物 | 数据 |
---|---|---|
FlyMine | 果蝇 | 基因,同源性,蛋白质,相互作用,基因本体,表达,调控,表型,途径,疾病,资源,出版物 |
HumanMine | 智人 | 基因组学,snp, GWAS,蛋白质,基因本体,途径,基因表达,相互作用,出版物,疾病,同源体,等位基因 |
MouseMine | m .骶 | 基因组学,蛋白质,基因本体论,表达,相互作用,途径,表型,疾病,同源性,出版物 |
RatMine | r形 | 疾病,基因本体论,基因组学,相互作用,表型,途径,蛋白质,出版物QTL, SNP |
WormMine | 秀丽隐杆线虫 | 基因,等位基因,同源性,基因注释,表型,菌株 |
YeastMine | 酿酒酵母 | 基因组学,蛋白质,基因本体论,比较基因组学,表型,相互作用,文献,途径,基因表达 |
ZebrafishMine | d .鱼类 | 基因,结构,疾病,基因本体,基因型,同源性,形态学,表型 |
TargetMine | 智人,肌肉猴 | 基因,蛋白质结构,化合物,蛋白质结构域,基因功能,途径,相互作用,疾病,药物靶点 |
MitoMiner | 智人,小家鼠,褐家鼠,雷家鼠,酿酒葡萄,猪 | 基因,同源性,定位证据,线粒体内参基因列表,表型,疾病,表达,相互作用,途径,外显子组 |
IndigoMine | Archae | 基因组学 |
ThaleMine | 答:芥 | 基因组学,蛋白质,结构域,同源性,基因本体,相互作用,表达,出版物,途径,GeneRIF,库存,表型,等位基因,插入,TAIR |
MedicMine | Medicago truncatula | 基因组学,途径,基因本体,出版物,蛋白质,同源性 |
PhytoMine | 超过50个植物基因组 | 基因,蛋白质,表达,转录本,同源性 |
请参阅InterMine主页以获得可用的InterMine的完整列表。
InterMine包括一个吸引人的、用户友好的、“开箱即用”的web界面,以及一个强大的、可编写脚本的web服务API,允许以编程方式访问您的数据。这个R包通过Web服务提供了与基于intermine的数据库的接口。
让我们从一个简单的任务开始——找到ABO基因的通路。
首先,我们看看有哪些数据库可用。
## AllianceMine ##“https://www.alliancegenome.org/alliancemine/”## BMAP ##“https://bmap.jgi.doe.gov/bmapmine/”## BeanMine ##“https://mines.legumeinfo.org/beanmine”## BovineMine ##“http://genomes.missouri.edu/bovinemine”## CHOmine ##“https://chomine.boku.ac。在/ chomine " # # ChickpeaMine # # " https://mines.legumeinfo.org/chickpeamine " # # CovidMine # # " https://test.intermine.org/covidmine/ " # # CowpeaMine # # " https://mines.legumeinfo.org/cowpeamine " # # FawMine # # " http://insectmine.org: 8080 / FawMine " # # FlyMine # # " https://www.flymine.org/flymine " # # GrapeMine # # " http://urgi.versailles.inra.fr/GrapeMine " # # HumanMine # # " https://www.humanmine.org/humanmine https://hymenoptera.elsiklab.missouri.edu/hymenopteramine“# # HymenopteraMine # # # # IndigoMine # #"http://www.cbrc.kaust.edu.sa/indigo" ## JointvetchMine ## "https://mines.legumeinfo.org/jointvetchmine" ## LegumeMine ## "https://mines.legumeinfo.org/legumemine" ## LocustMine ## "http://locustmine.org:8080/locustmine" ## LupinMine ## "https://mines.legumeinfo.org/lupinmine" ## MaizeMine ## "http://maizemine.rnet.missouri.edu:8080/maizemine" ## MedicMine ## "https://mines.legumeinfo.org/medicmine" ## ModMine ## "http://intermine.modencode.org/release-33" ## MouseMine ## "http://www.mousemine.org/mousemine" ## OakMine ## "https://urgi.versailles.inra.fr/OakMine_PM1N" ## PeanutMine ## "https://mines.legumeinfo.org/peanutmine" ## PhytoMine ## "https://phytozome.jgi.doe.gov/phytomine/" ## PlanMine ## "https://planmine.mpibpc.mpg.de/planmine" ## RatMine ## "http://ratmine.mcw.edu/ratmine" ## SoyMine ## "https://mines.legumeinfo.org/soymine" ## TargetMine ## "https://targetmine.mizuguchilab.org/targetmine" ## TetraMine ## "http://adenine.bradley.edu/tetramine" ## ThaleMine ## "https://bar.utoronto.ca/thalemine" ## WheatMine ## "https://urgi.versailles.inra.fr/WheatMine" ## YeastMine ## "https://yeastmine.yeastgenome.org/yeastmine"
因为我们想查询人类基因,所以我们选择HumanMine。
## Service类的对象##槽“mine”:## HumanMine ## "https://www.humanmine.org/humanmine" ## ##槽“token”:## [1]""
在InterMine数据库网站和InterMineR中,都可以构建自定义查询。但是,为了方便从矿间数据库检索资料,还提供了各种预先编制的查询,称为模板。模板是已经用一组固定的输出列和一个或多个约束创建的查询。
##名称## 1组织表达_ Illumina ## 2 humDisGeneOrthol2 3表型基因## 4 disExprGene ## 5蛋白质相互作用## 6基因相互作用## 1组织—>基因表达(Illumina体图)## 2人类疾病—>人类基因+同源基因(s) ## 3小鼠表型—>小鼠基因+同源基因## 4疾病表达—>基因## 5蛋白质—>相互作用## 6基因—>相互作用
我们想找到涉及基因的模板。
# #名# # 2 humDisGeneOrthol2 # # 3 PhenotypeGene # # 4 disExprGene # # 6 Gene_Interactions2 # # 7 Protein_Gene_Ortho GOterm_Gene 8 # # # # 11 12 Gene_Alleles_Disease2 Disease_gene_RNAseq # # # # 14 ChromRegion_GenesTransExon 17 18 Disease_Genes2 GeneExpress # # # # # # 19 20 Protein_GeneChromosomeLength Gene_Location # # # # 21 Gene_Identifiers # # 23 Gene_Pathway # # 26 27 PathwayGenes Gene_protein_sequence # # # # 29 Gene_Protein 33 DiseaseDisGenNet_GEnes Gene_OverlapppingGenes 30 # # # # # # 34Gene_To_Publications 35 36 Gene_Disease_HPO Gene_Interactions_forReportPage # # # # # # 37 Gene_GO 39 40 Gene_particularGoannotation GeneInteractorsExpression # # # # # # 41 Gene_TissueExpressionIllumina # # 43 Gene_HPOphenotype_2 44 45 Gene_Expression_GTex domain_protein_gene # # # # # # 46 Gene_DisGenNet 47 48 Pathway_ProteinGene Gene_ExpressionProteinAtlas # # # # # # 49 Gene_description # # 52 DepMap_Gene # # 53 Gene_Interact_disease # # 54 GeneHPOparent_Genes_2 Gene_proteindomain 55 # # # # 56 HPO_Gene # # 57Gene_SigSNP ## 58 Gene_inGWAS ## 59 geneGWAS_reportPg ## 60 geneInteractiongene ## 61 Gene_Disease2 ## 62 Term_inGWASoptionalGene ## 63 Gene_proteinAtlasExpression2 ## 64 GeneOrthAllele ## 66 Gene_Interactions_DiseaseExpression ## 69 Gene_Orth ## 70 ChromRegion_Genes ## 72 GenePathway_interactions2 ## 73 Gene_AllelePhen ## title ## 2 Human Disease --> Human Gene + Orthologue Gene(s) ## 3 Mouse Phenotype --> Mouse Genes + Orthologous genes ## 4 Disease Expression --> Genes ## 6 Gene --> Interactions ## 7 Protein --> Gene and Orthologues ## 8 GO term --> Genes ## 11 Disease -> Genes + RNA-seq Expression ## 12 Gene --> Alleles and Disease (clinVar data) ## 14 Chromosomal Location --> All Genes + Transcripts + Exons ## 17 Gene --> Gene Expression (Tissue, Disease; Array Express, E-MTAB-62) ## 18 Disease --> Gene(s) ## 19 Gene --> Chromosomal location. ## 20 Protein --> Gene. ## 21 Gene --> All identifiers. ## 23 Gene --> Pathway ## 26 Gene -> Protein + protein sequence ## 27 Pathway --> Genes ## 29 Gene --> Proteins. ## 30 Gene --> Overlapping genes. ## 33 Disease association --> genes (DisGeNet) ## 34 Gene --> Publications. ## 35 Gene --> Physical and Genetic Interactions ## 36 Gene --> Disease + HPO annotations (Human Phenotype Ontology) ## 37 Gene --> GO terms. ## 39 Gene + Tissue Expression --> Interactors that are expressed in that tissue ## 40 Gene + GO term --> Genes by GO term ## 41 Gene --> Tissue Expression (Illumina body map) ## 43 Gene -> HPO annotation (Human Phenotype Ontology) ## 44 Protein Domain --> Protein and Genes ## 45 Gene --> Tissue Expression (GTex data) ## 46 Gene(s) --> Disease Associations (DisGenNet) ## 47 Gene(s) --> Tissue Expression (Protein Atlas RNA-seq) ## 48 Pathway --> Protein and Gene ## 49 Gene -> Description ## 52 Cancer cell line --> Gene Expression ## 53 Gene -> Interactions + diseases ## 54 Gene + HPO Phenotype parent term -> Genes ## 55 Gene --> Protein + Domains ## 56 HPO term --> Genes ## 57 Gene(s) --> Significant SNPs (GTex data) ## 58 Gene --> GWAS hit ## 59 Gene Report --> GWAS hit ## 60 Gene A --> Interaction <-- Gene B ## 61 Gene --> Disease (OMIM) ## 62 GWAS term --> SNP + Associated gene if available ## 63 Gene --> Protein tissue Localisation ## 64 Gene (Hum OR Rat) --> Mouse Allele (Phenotype) ## 66 Gene(s) + Disease --> Interactors + Disease Expression ## 69 Gene --> Orthologues ## 70 Region --> Genes ## 72 Gene + Pathway --> Interactions ## 73 Mouse Gene --> Allele [Phenotype]
模板Gene_Pathway似乎就是我们想要的。让我们更详细地看看这个模板。
“基因组”## ## $title ##[1]“基因—>通路”## ## $description ##[1]“对于给定的基因(或基因列表)显示任何相关的通路(s)(数据来源:KEGG或REACTOME)。关键词:通路代谢级联" ## ## $select ##[1] "基因primaryIdentifier”基因。符号" ## [3]"Gene.name" " gene . paths .name" " ## [5] " gene . paths . datasets .name" " gene . paths .name"标识符“# #”[7]Gene.organism.shortName constraintLogic美元“# # # # # #”[1]B和A“# # # # # # $ name[1]“Gene_Pathway“# # # # $ # #评论[1]”添加26 oct2010:毫升“# # # # # #标签美元[1]“我:方面:功能”“即时通讯:方面:通路”“即时通讯:公众“# # # # $ # #排名[1]“1”授权# # # # # # $[1]假# # # # orderBy # # orderBy美元[[1]]# #基因。primaryIdentifier ##“ASC”## ## $orderBy[[2]] ##基因。primaryIdentifier ##“ASC”## ## $orderBy[[3]] ##基因。ASC primaryIdentifier # #” " ## ## ## $ 在# # $,[[1]]# # $,# # $ path[[1]][1]“基因”# # # #,[[1]]美元op # #[1]“查找”# # # #,[[1]]美元代码# #[1]”一个“# # # #,[[1]]美元可编辑# #[1]真正的# # # #,[[1]]美元可切换的# #[1]假# # # #,[[1]]美元交换# #[1]“锁定”# # # #,[[1]]美元价值# #[1]”pparg吗 " ## ## ## $ 在[[2]]# # $ # # $ path[[2]]的[1]“Gene.organism.name”# # # # $ [[2]]op # #美元[1 ] "=" ## ## $ 在[[2]]代码# #美元[1]“B”# # # #,[[2]]美元可编辑# #[1]是真的吗# # # #,[[2]]美元可切换的# #[1]假# # # #,[[2]]美元交换# #[1]“锁定”# # # # $ # #[[2]]美元价值[1]“智人”
查询中有三个基本成员——SELECT、WHERE和constraintLogic。
吉恩做了什么?符号的意思吗?' gene .path .identifier '是什么?
让我们看一看数据模型。注意:由于错误暂时删除了部分
让我们看看Gene数据类型的子数据。{r gene_type_data, warning=FALSE, message=FALSE} # model[which(model$type=="Gene"),]
Gene有一个名为“symbol”的字段(因此列为Gene.symbol)。Gene还引用路径类,它属于路径数据类型。
' ' '
现在让我们运行模板。
# #基因。primaryIdentifier基因。符号## 1 5468 PPARG ## 2 5468 PPARG ## 3 5468 PPARG ## 4 5468 PPARG ## 5 5468 PPARG ## 6 5468 PPARG ##基因。名称## 1过氧化物酶体增殖物激活受体γ ## 2过氧化物酶体增殖物激活受体γ ## 3过氧化物酶体增殖物激活受体γ ## 4过氧化物酶体增殖物激活受体γ ## 5过氧化物酶体增殖物激活受体γ ## 6过氧化物酶体增殖物激活受体γ ##基因。路径。名称基因.路径。数据集。名称## 1发育生物学反应组通路数据集## 2基因表达(转录)反应组通路数据集## 3通用转录通路反应组通路数据集## 4第二信使细胞内信号传导反应组通路数据集## 5 MECP2调控转录因子反应组通路数据集## 6代谢反应组通路数据集## Gene. paths .identifier Gene.有机体. shortname ## 1 R-HSA-1266738智人## 2 R-HSA-74160智人## 3 R-HSA-212436 H。R-HSA-9006925智人## 5 R-HSA-9022707智人## 6 R-HSA-1430728智人
让我们修改查询以找到ABO基因的通路。我们希望将“value”属性从PPARG更改为ABO。
在InterMineR中有两种方法构建查询。
可以将查询构建为列表对象newQuery
函数,并将所有输入值(检索数据类型的选择、约束等)赋值为该列表的项,
或者我们可以将查询构建为InterMineR-class
对象的函数setConstraint
,它允许我们生成一个新的或修改一个现有的约束列表,以及setQuery
,它将查询生成为InterMineR-class
对象。
setConstraints
而且setQuery
函数的设计是为了方便为InterMine实例生成查询,并避免使用多个迭代循环,特别是当需要在查询中包含多个约束或约束值(例如,基因,生物体)时。
#直接修改列表查询中第一个约束的值queryGenePath$在[[1]] [[“价值”]] < -“ABO血型”#或使用setConstraints修改列表查询中第一个约束的值queryGenePath$在=setConstraints(modifyQueryConstraints =queryGenePath,m.index =1,值=列表(“ABO血型”))queryGenePath$在哪里
([1]) # # # # # # $ path[[1]]的[1]”基因 " ## ## [[ 1]] op # #美元[1]”查找 " ## ## [[ 1]] $代码# #”[1] " ## ## [[ 1]]编辑# #美元[1]真正的# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”ABO血型 " ## ## ## [[ 2]] # # # # $ path[[2]]的[1]”Gene.organism.name " ## ## [[ 2]] op # #[1美元 ] "=" ## ## [[ 2]] $ B代码# #[1]” " ## ## [[ 2]]编辑# #美元[1]真正的# # # #可切换的# #美元[[2]][1]假# # # #[[2]]美元交换# #[1]”锁定 " ## ## [[ # # 2]]美元价值[1]“智人”
注意,该值现在等于' ABO '。让我们用新的约束重新运行查询。
# #基因。primaryIdentifier基因。基因名称## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 2 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 3 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 4 ABOα1-3-N-acetylgalactosaminyltransferase和α1-3-galactosyltransferase # # Gene.pathways.name Gene.pathways.dataSets.name # # 1 ABO血型生物合成Reactome通路数据集# # 2血型系统生物合成Reactome通路数据集# # 3 Reactome代谢通路数据集# # 4碳水化合物代谢Reactome通路数据集# # Gene.pathways.identifier Gene.organism.shortName # # 1 r - hsa - 9033807智人# # 2 r - hsa - 9033658智人# # 3 r - hsa - 1430728智人## 4 R-HSA-71387 H. sapiens
现在我们正在观察ABO基因的通路。
您还可以添加其他过滤器。让我们寻找一个特定的途径。
需要添加约束的四个部分:
newConstraint < -列表(路径=c(“Gene.pathways.name”),op =c(“=”),值=c(ABO血型生物合成),代码=c(“B”))queryGenePath$在[[2]] < -newConstraintqueryGenePath$在哪里
([1]) # # # # # # $ path[[1]]的[1]”基因 " ## ## [[ 1]] op # #美元[1]”查找 " ## ## [[ 1]] $代码# #”[1] " ## ## [[ 1]]编辑# #美元[1]真正的# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”ABO血型 " ## ## ## [[ 2]] # # # # $ path[[2]]的[1]”Gene.pathways.name " ## ## [[ 2]] op # #[1美元 ] "=" ## ## [[ # # 2]]美元价值[1]”ABO血型的生物合成 " ## ## [[ 2]]代码# #美元[1]“B”
我们的新过滤器已经成功添加。重新运行查询,您将看到只有一条路径返回,即ABO血型生物合成。
# #基因。primaryIdentifier基因。符号## 1 28 ABO ## 2 MGI:2135738 ABO ##基因名## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 2 ABO血型(转移酶A, α 1-3- n -乙酰半乳糖基转移酶,转移酶B,1-3-半乳糖转移酶)## gene . paths .name gene . paths . datassets .name ## 1 ABO血型生物合成反应组通路数据集## 2 ABO血型生物合成反应组通路数据集## gene . paths .identifier gene .有机体. shortname ## 1 R-HSA-9033807智人## 2 R-MMU-9033807小人人
还可以向输出中添加其他列。例如,基因是否也与任何疾病有关?让我们添加这个信息。
让我们来看看我们对疾病了解多少。
{r add_column, warning=FALSE, message=FALSE} # model[which(model$type=="Gene"),] #
基因数据类型有一个类型为“疾病”的“疾病”引用。
{r add_column2,警告=FALSE,消息=FALSE} #模型[which(模型$type=="疾病"),]#
疾病有一个属性叫“名”。将Gene.diseases.name添加到视图。我们将把它作为最后一列,我们可以看到上面已经有7个其他列了,所以我们将它作为#8:
使用setQuery函数创建一个interminer类查询queryGenePath。InterMineR =setQuery(inheritQuery =queryGenePath,选择=c(queryGenePath$选择、“Gene.diseases.name”))getSelect(queryGenePath.InterMineR)
“基因。primaryIdentifier”基因。符号" ## [3]"Gene.name" " gene . paths .name" " ## [5] " gene . paths . datasets .name" " gene . paths .name"标识符" ## [7]" gene .有机体. shortname " gene .disease .name"
# queryGenePath。InterMineR@select#或直接将新列分配给现有的列表查询queryGenePath$选择[[8]] < -“Gene.diseases.name”queryGenePath$选择
“基因。primaryIdentifier”基因。符号" ## [3]"Gene.name" " gene . paths .name" " ## [5] " gene . paths . datasets .name" " gene . paths .name"标识符" ## [7]" gene .有机体. shortname " gene .disease .name"
#运行查询resGenePath。InterMineR < -runQueryqueryGenePath.InterMineR (im)resGenePath < -runQueryqueryGenePath (im)所有(resGenePath= =resGenePath.InterMineR)
##[1]真
# #基因。primaryIdentifier基因。符号## 1 28 ABO ##基因名称## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## Gene.pathways.name gene .pathways. datasdataset .name ## 1 ABO血型生物合成反应组途径数据集## Gene.pathways.identifier gene .有机体. shortname gene .disease .name ## 1 R-HSA-9033807智人血型,ABO系统
注意:添加列会改变行数。
如果没有给出constraintLogic,则为' A and B '。现在,我们将尝试显式地指定constraintLogic。A和B对应于每个约束的“代码”。
##[1]“A和B”
再次运行查询,没有看到变化:
# #基因。primaryIdentifier基因。符号## 1 28 ABO ##基因名称## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## Gene.pathways.name gene .pathways. datasdataset .name ## 1 ABO血型生物合成反应组途径数据集## Gene.pathways.identifier gene .有机体. shortname gene .disease .name ## 1 R-HSA-9033807智人血型,ABO系统
改为“A或B”,看看结果如何变化。
- 从模板Gene GO开始
# # # #元模型的名字# #“基因组”# # # # $ # #[1]“基因- - - >去。”## ## $description ##[1]“搜索特定基因(或基因列表)的GO注释。”## ## $select ##[1] "基因。primaryIdentifier“##[2]”基因。符号“##[3]”。标识“##[4]”Gene.goAnnotation.ontologyTerm.name“##[5]”Gene.goAnnotation.ontologyTerm.namespace“##[6]”Gene.goAnnotation.evidence.code。Gene.goAnnotation.ontologyTerm.parents. code" ## [7] "Gene.goAnnotation. ontologyterm .parents.name" ## [9] "Gene.goAnnotation. ontologyterm .parents.name" ## [9] "限定符“# # # # # # $ name[1]“Gene_GO“# # # # $ # #评论[1]”添加15 nov2010:毫升“# # # # # #标签美元[1]“我:方面:功能”“即时通讯:方面:基因本体“# #”[3]im:方面:基因组学”“我:首页“# #”[5]im:公共”“即时通讯:报告“# # # # $ # #排名[1]“4”授权# # # # # # $[1]假# # # # orderBy # # orderBy美元[[1]]# #基因。ASC primaryIdentifier # #” " ## ## ## $ 在# # $,[[1]]# # $,# # $ path[[1]][1]“基因”# # # #,[[1]]美元op # #[1]“查找”# # # #,[[1]]美元代码# #[1]”一个“# # # #,[[1]]美元可编辑# #[1]真正的# # # #,[[1]]美元可切换的# #[1]假# # # #,[[1]]美元交换# #[1]“锁定”# # # #,[[1]]美元价值# #[1]“PPARG”# # # #,[[1]]美元extraValue # #[1]“智人”
- 修改视图以显示紧凑视图
“基因。符号“##[2]”。Gene.goAnnotation.ontologyTerm.name" ## [4] "Gene.goAnnotation.ontologyTerm.namespace"
- 修改约束条件,寻找基因ABO。
([1]) # # # # # # $ path[[1]]的[1]”基因 " ## ## [[ 1]] op # #美元[1]”查找 " ## ## [[ 1]] $代码# #”[1] " ## ## [[ 1]]编辑# #美元[1]真正的# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”ABO血型 " ## ## [[ 1]] extraValue # #美元[1]“智人”
- 运行查询
# #基因。象征Gene.goAnnotation.ontologyTerm.identifier # # 1 ABO血型去:0000139 # # 2 ABO血型:0000166 # # 3 ABO血型:0003823 # # 4 ABO血型:0004380 # # 5 ABO血型:0004381 # # 6 ABO血型:0004381 # # Gene.goAnnotation.ontologyTerm.name # # 1 # #高尔基体膜2核苷酸结合# # 3 # # 4糖蛋白抗原绑定- focusylgalactoside alpha-N-acetylgalactosaminyltransferase活动# # 5 focusylgalactoside 3-alpha-galactosyltransferase活动# # 6 # # 1 # # Gene.goAnnotation.ontologyTerm.namespace细胞外区域细胞成分## 2分子功能## 3分子功能## 4分子功能## 5分子功能## 6细胞成分
- 从模板Gene GO开始
## $模型##名称##“基因组”## ## $title ##[1]“GO术语—>基因”## ## $description ##[1]“搜索与特定基因本体(GO)注释相关的特定生物体中的基因。”## ## $select ##[1] "基因。primaryIdentifier“##[2]”基因。符号“##[3]”Gene.name“##[4]”Gene.goAnnotation.ontologyTerm。标识符“# #”[5]Gene.goAnnotation.ontologyTerm.name“# #”[6]Gene.organism.shortName“# #”[7]Gene.goAnnotation.ontologyTerm.parents.name constraintLogic美元“# # # # # #”[1]B和C“# # # # # # $ name[1]“GOterm_Gene“# # # # $ # #评论[1]”添加26 oct2010:毫升“# # # # # #标签美元[1]“我:方面:功能”“即时通讯:方面:基因本体“# #”[3]im:方面:基因组学”“我:公共“# #”[5]im:报告“# # # # $ # #排名[1]“2”授权# # # # # # $[1]假# # # # orderBy # # orderBy美元[[1]]# #基因。# #“ASC象征 " ## ## ## $ 在# # $,[[1]]# # $,# # $ path[[1]][1]“Gene.organism.shortName”# # # # $ [[1]]op # #美元[1 ] "=" ## ## $ [[1]]代码# #美元[1]“B”# # # #,[[1]]美元可编辑# #[1]假# # # #,[[1]]美元可切换的# #[1]假# # # #,[[1]]美元交换# #[1]“锁定”# # # # $ # #[[1]]美元价值[1]“智人吗 " ## ## ## $ 在[[2]]# # $ # # $ path[[2]]的[1]“Gene.goAnnotation.ontologyTerm.parents.name”# # # # $ [[2]]op # #美元[1 ] "=" ## ## $ 在[[2]]代码# #美元[1]“C”# # # #$在[[2]]$editable ## [1] TRUE ## ## $where[[2]]$switchable ## [1] FALSE ## ## $where[[2]]$switched ## [1] "LOCKED" ## ## $where[[2]]$value ## [1] "DNA binding"
- 修改视图以显示紧凑视图
“基因。符号“##[2]”Gene.name“##[3]”Gene.goAnnotation.ontologyTerm。标识符" ## [4]"Gene.goAnnotation.ontologyTerm.name"
- 修改约束以寻找GO术语“金属离子结合”
([1]) # # # # # # $ path[[1]]的[1]”Gene.organism.shortName " ## ## [[ 1]] op # #[1美元 ] "=" ## ## [[ 1]] $ B代码# #[1]” " ## ## [[ 1]]编辑# #美元[1]假# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”金属离子结合 " ## ## ## [[ 2]] # # # # $ path[[2]]的[1]”Gene.goAnnotation.ontologyTerm.parents.name " ## ## [[ 2]] op # #[1美元 ] "=" ## ## [[ 2]] $ # #[1]“C代码 " ## ## [[ 2]]编辑# #美元[1]真正的# # # #可切换的# #美元[[2]][1]假# # # #[[2]]美元交换# # [1]“锁定”## ## [[2]]$value ##[1]“DNA绑定”
- 运行查询
# #空
- 从Gene_Location模板开始,更新以搜索ABCA6基因。
queryGeneLoc =getTemplateQuery(im,“Gene_Location”)queryGeneLoc$在[[2]] [[“价值”]] =“ABCA6”resGeneLoc =runQueryqueryGeneLoc (im)resGeneLoc
# #基因。primaryIdentifier基因。secondaryIdentifier基因。符号## 1 23460 ENSG00000154262 ABCA6 ## Gene.name Gene.chromosome.primaryIdentifier ## 1 ATP结合盒亚家族A成员6 17 ## Gene.locations.start Gene.locations.end Gene.locations.strand ## 1 69062044 69141927 -1
我们将使用输出(基因位置)作为下一个查询的输入。
- 定义一个新的查询
#设置约束约束=setConstraints(路径=c(“Gene.chromosome.primaryIdentifier”,“Gene.locations.start”,“Gene.locations.end”,“Gene.organism.name”),运算符=c(“=”,“> =”,“< =”,“=”),值=列表(resGeneLoc [1,“Gene.chromosome.primaryIdentifier”),as.character(as.numeric(resGeneLoc [1,“Gene.locations.start”])-50000),as.character(as.numeric(resGeneLoc [1,“Gene.locations.end”])+50000),“智人”))#设置interminer类查询queryNeighborGene =setQuery(选择=c(“Gene.primaryIdentifier”,“Gene.symbol”,“Gene.chromosome.primaryIdentifier”,“Gene.locations.start”,“Gene.locations.end”,“Gene.locations.strand”),在=约束)总结(queryNeighborGene)
## path op值code ## 1 Gene.chromosome.primaryIdentifier = 17 A ## 2 Gene.locations.start >= 69012044 B ## 3 Gene.locations.end <= 69191927 C ## 4 Gene.organism.name = Homo sapiens D
- 运行查询
# #基因。primaryIdentifier基因。符号Gene.chromosome.primaryIdentifier ## 1 100616316 MIR4524A 17 ## 2 100847008 MIR4524B 17 ## 3 23460 ABCA6 17 ## # Gene.locations.start Gene.locations.end Gene.locations.strand ## 1 69099564 69099632 -1 ## 2 69099542 69099656 1 ## 3 69062044 69141927 -1
- 绘制基因图
resNeighborGene$Gene.locations.strand [哪一个(resNeighborGene$Gene.locations.strand= =1) =“+”resNeighborGene$Gene.locations.strand [哪一个(resNeighborGene$Gene.locations.strand= = -1) =“-”基因。idx =哪一个(nchar(resNeighborGene$Gene.symbol)= =0)resNeighborGene$Gene.symbol [gene.idx] = resNeighborGene$Gene.primaryIdentifier [gene.idx]
annTrack =AnnotationTrack(开始=resNeighborGene$Gene.locations.start,结束=resNeighborGene$Gene.locations.end,链=resNeighborGene$Gene.locations.strand,染色体=resNeighborGene$Gene.chromosome.primaryIdentifier [1),基因组=“GRCh38”,name =“大约ABCA6”,id =resNeighborGene$Gene.symbol)gtr < -GenomeAxisTrack()itr < -IdeogramTrack(基因组=“hg38”,染色体=“chr17”)plotTracks(列表(gtr, itr, annTrack),形状=“盒子”,showFeatureId =真正的,fontcolor =“黑色”)
## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=C LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基础包:## [1]grid stats4 stats graphics grDevices utils datasets ##[8]方法基础## ##其他附加包:## [1]Gviz_1.40.0 genome icranges_1 .48.0 GenomeInfoDb_1.32.0 ## [4] IRanges_2.30.0 S4Vectors_0.34.0 BiocGenerics_0.42.0 ## [7] InterMineR_1.18.0 BiocStyle_2.24.0 ## ##通过命名空间加载(并且未附加):# # # # [1] colorspace_2.0-3 rjson_0.2.21 [3] ellipsis_0.3.2 biovizBase_1.44.0 # # [5] htmlTable_2.4.0 XVector_0.36.0 # # [7] base64enc_0.1-3 dichromat_2.0-0 # # [9] rstudioapi_0.13 bit64_4.0.5 # # [11] AnnotationDbi_1.58.0 fansi_1.0.3 # # [13] sqldf_0.4-11 xml2_1.3.3 # # [15] splines_4.2.0 cachem_1.0.6 # # [17] knitr_1.38 Formula_1.2-4 # # [19] jsonlite_1.8.0 Rsamtools_2.12.0 # # [21] cluster_2.1.3 dbplyr_2.1.1 # # [23] png_0.1-7 BiocManager_1.30.17 # # [25] compiler_4.2.0 httr_1.4.2 # # [27] backports_1.4.1lazyeval_0.2.2 ## [29] assertthat_0.2.1 Matrix_1.4-1 ## [31] fastmap_1.1.0 cli_3.3.0 ## [33] htmltools_0.5.2 prettyunits_1.1.1 ## [35] tools_4.2.0 igraph_1.3.1 ## [37] gtable_0.3.0 glue_1.6.2 ## [39] GenomeInfoDbData_1.2.8 dplyr_1.0.8 ## [41] rappdirs_0.3.3 Rcpp_1.0.8.3 ## [43] Biobase_2.56.0 jquerylib_0.1.4 ## [45] vctrs_0.4.1 Biostrings_2.64.0 ## [47] RJSONIO_1.3-1.6 rtracklayer_1.56.0 ## [49] xfun_0.30 stringr_1.4.0 ## [51] proto_1.0.0 lifecycle_1.0.1 ## [53] ensembldb_2.20.0 restfulr_0.0.13 ## [55] XML_3.99-0.9 zlibbioc_1.42.0 ## [57] scales_1.2.0 BSgenome_1.64.0 ## [59] VariantAnnotation_1.42.0 ProtGenerics_1.28.0 ## [61] hms_1.1.1 MatrixGenerics_1.8.0 ## [63] parallel_4.2.0 SummarizedExperiment_1.26.0 ## [65] AnnotationFilter_1.20.0 RColorBrewer_1.1-3 ## [67] yaml_2.3.5 curl_4.3.2 ## [69] memoise_2.0.1 gridExtra_2.3 ## [71] ggplot2_3.3.5 sass_0.4.1 ## [73] biomaRt_2.52.0 rpart_4.1.16 ## [75] latticeExtra_0.6-29 stringi_1.7.6 ## [77] RSQLite_2.2.12 highr_0.9 ## [79] BiocIO_1.6.0 checkmate_2.1.0 ## [81] GenomicFeatures_1.48.0 filelock_1.0.2 ## [83] BiocParallel_1.30.0 chron_2.3-56 ## [85] rlang_1.0.2 pkgconfig_2.0.3 ## [87] matrixStats_0.62.0 bitops_1.0-7 ## [89] evaluate_0.15 lattice_0.20-45 ## [91] purrr_0.3.4 htmlwidgets_1.5.4 ## [93] GenomicAlignments_1.32.0 bit_4.0.4 ## [95] tidyselect_1.1.2 magrittr_2.0.3 ## [97] bookdown_0.26 R6_2.5.1 ## [99] magick_2.7.3 generics_0.1.2 ## [101] Hmisc_4.7-0 DelayedArray_0.22.0 ## [103] DBI_1.1.2 gsubfn_0.7 ## [105] pillar_1.7.0 foreign_0.8-82 ## [107] survival_3.3-1 KEGGREST_1.36.0 ## [109] RCurl_1.98-1.6 nnet_7.3-17 ## [111] tibble_3.1.6 crayon_1.5.1 ## [113] utf8_1.2.2 BiocFileCache_2.4.0 ## [115] rmarkdown_2.14 jpeg_0.1-9 ## [117] progress_1.2.2 data.table_1.14.2 ## [119] blob_1.2.3 digest_0.6.29 ## [121] munsell_0.5.0 bslib_0.3.1
InterMine模型可以通过点击“QueryBuilder”选项卡,并在“Select a data type to Begin a Query”下选择适当的数据类型来访问矿场主页:
这里我们选择Gene作为数据类型:
单击右侧的“显示”,可以选择“符号”和“染色体->主标识符”。然后点击网页右下角的“导出XML”:
列名为Gene。symbol和Gene.chromosome.primaryIdentifier包含在XML输出中: