内容

1简介

InterMine是一个强大的开源数据仓库系统,集成了各种生物的各种生物数据集(例如基因组、表达和蛋白质数据)。集成数据使得运行复杂的数据挖掘查询成为可能,这些查询跨越了生物知识的各个领域。由InterMine提供支持的数据库列表如表1所示:

数据库 生物 数据
FlyMine 果蝇 基因,同源性,蛋白质,相互作用,基因本体,表达,调控,表型,途径,疾病,资源,出版物
HumanMine 智人 基因组学,snp, GWAS,蛋白质,基因本体,途径,基因表达,相互作用,出版物,疾病,同源体,等位基因
MouseMine m .骶 基因组学,蛋白质,基因本体论,表达,相互作用,途径,表型,疾病,同源性,出版物
RatMine r形 疾病,基因本体论,基因组学,相互作用,表型,途径,蛋白质,出版物QTL, SNP
WormMine 秀丽隐杆线虫 基因,等位基因,同源性,基因注释,表型,菌株
YeastMine 酿酒酵母 基因组学,蛋白质,基因本体论,比较基因组学,表型,相互作用,文献,途径,基因表达
ZebrafishMine d .鱼类 基因,结构,疾病,基因本体,基因型,同源性,形态学,表型
TargetMine 智人,肌肉猴 基因,蛋白质结构,化合物,蛋白质结构域,基因功能,途径,相互作用,疾病,药物靶点
MitoMiner 智人,小家鼠,褐家鼠,雷家鼠,酿酒葡萄,猪 基因,同源性,定位证据,线粒体内参基因列表,表型,疾病,表达,相互作用,途径,外显子组
IndigoMine Archae 基因组学
ThaleMine 答:芥 基因组学,蛋白质,结构域,同源性,基因本体,相互作用,表达,出版物,途径,GeneRIF,库存,表型,等位基因,插入,TAIR
MedicMine Medicago truncatula 基因组学,途径,基因本体,出版物,蛋白质,同源性
PhytoMine 超过50个植物基因组 基因,蛋白质,表达,转录本,同源性

请参阅InterMine主页以获得可用的InterMine的完整列表。

InterMine包括一个吸引人的、用户友好的、“开箱即用”的web界面,以及一个强大的、可编写脚本的web服务API,允许以编程方式访问您的数据。这个R包通过Web服务提供了与基于intermine的数据库的接口。

2Jumpstart:如何使用InterMineR构建查询

让我们从一个简单的任务开始——找到ABO基因的通路。

2.1选择一个数据库

首先,我们看看有哪些数据库可用。

## AllianceMine ##“https://www.alliancegenome.org/alliancemine/”## BMAP ##“https://bmap.jgi.doe.gov/bmapmine/”## BeanMine ##“https://mines.legumeinfo.org/beanmine”## BovineMine ##“http://genomes.missouri.edu/bovinemine”## CHOmine ##“https://chomine.boku.ac。在/ chomine " # # ChickpeaMine # # " https://mines.legumeinfo.org/chickpeamine " # # CovidMine # # " https://test.intermine.org/covidmine/ " # # CowpeaMine # # " https://mines.legumeinfo.org/cowpeamine " # # FawMine # # " http://insectmine.org: 8080 / FawMine " # # FlyMine # # " https://www.flymine.org/flymine " # # GrapeMine # # " http://urgi.versailles.inra.fr/GrapeMine " # # HumanMine # # " https://www.humanmine.org/humanmine https://hymenoptera.elsiklab.missouri.edu/hymenopteramine“# # HymenopteraMine # # # # IndigoMine # #"http://www.cbrc.kaust.edu.sa/indigo" ## JointvetchMine ## "https://mines.legumeinfo.org/jointvetchmine" ## LegumeMine ## "https://mines.legumeinfo.org/legumemine" ## LocustMine ## "http://locustmine.org:8080/locustmine" ## LupinMine ## "https://mines.legumeinfo.org/lupinmine" ## MaizeMine ## "http://maizemine.rnet.missouri.edu:8080/maizemine" ## MedicMine ## "https://mines.legumeinfo.org/medicmine" ## ModMine ## "http://intermine.modencode.org/release-33" ## MouseMine ## "http://www.mousemine.org/mousemine" ## OakMine ## "https://urgi.versailles.inra.fr/OakMine_PM1N" ## PeanutMine ## "https://mines.legumeinfo.org/peanutmine" ## PhytoMine ## "https://phytozome.jgi.doe.gov/phytomine/" ## PlanMine ## "https://planmine.mpibpc.mpg.de/planmine" ## RatMine ## "http://ratmine.mcw.edu/ratmine" ## SoyMine ## "https://mines.legumeinfo.org/soymine" ## TargetMine ## "https://targetmine.mizuguchilab.org/targetmine" ## TetraMine ## "http://adenine.bradley.edu/tetramine" ## ThaleMine ## "https://bar.utoronto.ca/thalemine" ## WheatMine ## "https://urgi.versailles.inra.fr/WheatMine" ## YeastMine ## "https://yeastmine.yeastgenome.org/yeastmine"

因为我们想查询人类基因,所以我们选择HumanMine。

## Service类的对象##槽“mine”:## HumanMine ## "https://www.humanmine.org/humanmine" ## ##槽“token”:## [1]""

2.2获取预构建的查询

在InterMine数据库网站和InterMineR中,都可以构建自定义查询。但是,为了方便从矿间数据库检索资料,还提供了各种预先编制的查询,称为模板。模板是已经用一组固定的输出列和一个或多个约束创建的查询。

##名称## 1组织表达_ Illumina ## 2 humDisGeneOrthol2 3表型基因## 4 disExprGene ## 5蛋白质相互作用## 6基因相互作用## 1组织—>基因表达(Illumina体图)## 2人类疾病—>人类基因+同源基因(s) ## 3小鼠表型—>小鼠基因+同源基因## 4疾病表达—>基因## 5蛋白质—>相互作用## 6基因—>相互作用

我们想找到涉及基因的模板。

# #名# # 2 humDisGeneOrthol2 # # 3 PhenotypeGene # # 4 disExprGene # # 6 Gene_Interactions2 # # 7 Protein_Gene_Ortho GOterm_Gene 8 # # # # 11 12 Gene_Alleles_Disease2 Disease_gene_RNAseq # # # # 14 ChromRegion_GenesTransExon 17 18 Disease_Genes2 GeneExpress # # # # # # 19 20 Protein_GeneChromosomeLength Gene_Location # # # # 21 Gene_Identifiers # # 23 Gene_Pathway # # 26 27 PathwayGenes Gene_protein_sequence # # # # 29 Gene_Protein 33 DiseaseDisGenNet_GEnes Gene_OverlapppingGenes 30 # # # # # # 34Gene_To_Publications 35 36 Gene_Disease_HPO Gene_Interactions_forReportPage # # # # # # 37 Gene_GO 39 40 Gene_particularGoannotation GeneInteractorsExpression # # # # # # 41 Gene_TissueExpressionIllumina # # 43 Gene_HPOphenotype_2 44 45 Gene_Expression_GTex domain_protein_gene # # # # # # 46 Gene_DisGenNet 47 48 Pathway_ProteinGene Gene_ExpressionProteinAtlas # # # # # # 49 Gene_description # # 52 DepMap_Gene # # 53 Gene_Interact_disease # # 54 GeneHPOparent_Genes_2 Gene_proteindomain 55 # # # # 56 HPO_Gene # # 57Gene_SigSNP ## 58 Gene_inGWAS ## 59 geneGWAS_reportPg ## 60 geneInteractiongene ## 61 Gene_Disease2 ## 62 Term_inGWASoptionalGene ## 63 Gene_proteinAtlasExpression2 ## 64 GeneOrthAllele ## 66 Gene_Interactions_DiseaseExpression ## 69 Gene_Orth ## 70 ChromRegion_Genes ## 72 GenePathway_interactions2 ## 73 Gene_AllelePhen ## title ## 2 Human Disease --> Human Gene + Orthologue Gene(s) ## 3 Mouse Phenotype --> Mouse Genes + Orthologous genes ## 4 Disease Expression --> Genes ## 6 Gene --> Interactions ## 7 Protein --> Gene and Orthologues ## 8 GO term --> Genes ## 11 Disease -> Genes + RNA-seq Expression ## 12 Gene --> Alleles and Disease (clinVar data) ## 14 Chromosomal Location --> All Genes + Transcripts + Exons ## 17 Gene --> Gene Expression (Tissue, Disease; Array Express, E-MTAB-62) ## 18 Disease --> Gene(s) ## 19 Gene --> Chromosomal location. ## 20 Protein --> Gene. ## 21 Gene --> All identifiers. ## 23 Gene --> Pathway ## 26 Gene -> Protein + protein sequence ## 27 Pathway --> Genes ## 29 Gene --> Proteins. ## 30 Gene --> Overlapping genes. ## 33 Disease association --> genes (DisGeNet) ## 34 Gene --> Publications. ## 35 Gene --> Physical and Genetic Interactions ## 36 Gene --> Disease + HPO annotations (Human Phenotype Ontology) ## 37 Gene --> GO terms. ## 39 Gene + Tissue Expression --> Interactors that are expressed in that tissue ## 40 Gene + GO term --> Genes by GO term ## 41 Gene --> Tissue Expression (Illumina body map) ## 43 Gene -> HPO annotation (Human Phenotype Ontology) ## 44 Protein Domain --> Protein and Genes ## 45 Gene --> Tissue Expression (GTex data) ## 46 Gene(s) --> Disease Associations (DisGenNet) ## 47 Gene(s) --> Tissue Expression (Protein Atlas RNA-seq) ## 48 Pathway --> Protein and Gene ## 49 Gene -> Description ## 52 Cancer cell line --> Gene Expression ## 53 Gene -> Interactions + diseases ## 54 Gene + HPO Phenotype parent term -> Genes ## 55 Gene --> Protein + Domains ## 56 HPO term --> Genes ## 57 Gene(s) --> Significant SNPs (GTex data) ## 58 Gene --> GWAS hit ## 59 Gene Report --> GWAS hit ## 60 Gene A --> Interaction <-- Gene B ## 61 Gene --> Disease (OMIM) ## 62 GWAS term --> SNP + Associated gene if available ## 63 Gene --> Protein tissue Localisation ## 64 Gene (Hum OR Rat) --> Mouse Allele (Phenotype) ## 66 Gene(s) + Disease --> Interactors + Disease Expression ## 69 Gene --> Orthologues ## 70 Region --> Genes ## 72 Gene + Pathway --> Interactions ## 73 Mouse Gene --> Allele [Phenotype]

模板Gene_Pathway似乎就是我们想要的。让我们更详细地看看这个模板。

“基因组”## ## $title ##[1]“基因—>通路”## ## $description ##[1]“对于给定的基因(或基因列表)显示任何相关的通路(s)(数据来源:KEGG或REACTOME)。关键词:通路代谢级联" ## ## $select ##[1] "基因primaryIdentifier”基因。符号" ## [3]"Gene.name" " gene . paths .name" " ## [5] " gene . paths . datasets .name" " gene . paths .name"标识符“# #”[7]Gene.organism.shortName constraintLogic美元“# # # # # #”[1]B和A“# # # # # # $ name[1]“Gene_Pathway“# # # # $ # #评论[1]”添加26 oct2010:毫升“# # # # # #标签美元[1]“我:方面:功能”“即时通讯:方面:通路”“即时通讯:公众“# # # # $ # #排名[1]“1”授权# # # # # # $[1]假# # # # orderBy # # orderBy美元[[1]]# #基因。primaryIdentifier ##“ASC”## ## $orderBy[[2]] ##基因。primaryIdentifier ##“ASC”## ## $orderBy[[3]] ##基因。ASC primaryIdentifier # #” " ## ## ## $ 在# # $,[[1]]# # $,# # $ path[[1]][1]“基因”# # # #,[[1]]美元op # #[1]“查找”# # # #,[[1]]美元代码# #[1]”一个“# # # #,[[1]]美元可编辑# #[1]真正的# # # #,[[1]]美元可切换的# #[1]假# # # #,[[1]]美元交换# #[1]“锁定”# # # #,[[1]]美元价值# #[1]”pparg吗 " ## ## ## $ 在[[2]]# # $ # # $ path[[2]]的[1]“Gene.organism.name”# # # # $ [[2]]op # #美元[1 ] "=" ## ## $ 在[[2]]代码# #美元[1]“B”# # # #,[[2]]美元可编辑# #[1]是真的吗# # # #,[[2]]美元可切换的# #[1]假# # # #,[[2]]美元交换# #[1]“锁定”# # # # $ # #[[2]]美元价值[1]“智人”

查询中有三个基本成员——SELECT、WHERE和constraintLogic。

  1. 选择
    1. SELECT(或视图)表示查询输出中的输出列。
    2. 视图的列通常是“a”的形式。B”,其中B是a的子结点。符号,符号是吉恩的孩子。列也可以是级联形式的“A.B.C”。例如,在Gene.locations列中。start, locations是Gene的子结点,start是locations的子结点。
  2. 在哪里
    1. WHERE语句是约束的集合。
    2. 查询约束包括以下列的列表:
      1. 路径
        1. 与视图列格式相同
      2. 人事处
        1. 约束操作符
        2. 有效值:“=”,“!””、“=”、“查找”、“没有之一 ”, “>”, “<”, “>=”, “<=”, “ 像“
      3. 价值1.约束值
      4. 代码
        1. 忽略
        2. 约束的逻辑代码(例如A、B或C)。
        3. 仅用于下面讨论的constrainLogic
      5. extraValue
        1. 可选,LOOKUP约束所必需
        2. 有机体的简称,例如智人
        1. 可编辑的
          1. 忽略
          2. 用于确定是否允许用户编辑此约束。只针对用户界面。
      6. 可切换的
        1. 忽略
        2. 用于确定是否允许用户禁用此约束。
          只针对用户界面。
      7. 切换
        1. 忽略
        2. 用于确定用户是否已启用此约束。只针对用户界面。
  3. constraintLogic
    1. 约束逻辑,如果没有显式给出,是“AND”操作,例如,“A和B”,其中A和B是约束中的代码。

2.2.1看一下数据模型

吉恩做了什么?符号的意思吗?' gene .path .identifier '是什么?

让我们看一看数据模型。注意:由于错误暂时删除了部分

3.' ' ' {r getModel, warning=FALSE, message=FALSE}

4模型<- getModel(im)

5头(模型)

让我们看看Gene数据类型的子数据。{r gene_type_data, warning=FALSE, message=FALSE} # model[which(model$type=="Gene"),]

Gene有一个名为“symbol”的字段(因此列为Gene.symbol)。Gene还引用路径类,它属于路径数据类型。

6' ' ' {r pathway_type, warning=FALSE, message=FALSE}

7模型[(模型$ type = =“途径”),)

' ' '

7.1运行查询

现在让我们运行模板。

# #基因。primaryIdentifier基因。符号## 1 5468 PPARG ## 2 5468 PPARG ## 3 5468 PPARG ## 4 5468 PPARG ## 5 5468 PPARG ## 6 5468 PPARG ##基因。名称## 1过氧化物酶体增殖物激活受体γ ## 2过氧化物酶体增殖物激活受体γ ## 3过氧化物酶体增殖物激活受体γ ## 4过氧化物酶体增殖物激活受体γ ## 5过氧化物酶体增殖物激活受体γ ## 6过氧化物酶体增殖物激活受体γ ##基因。路径。名称基因.路径。数据集。名称## 1发育生物学反应组通路数据集## 2基因表达(转录)反应组通路数据集## 3通用转录通路反应组通路数据集## 4第二信使细胞内信号传导反应组通路数据集## 5 MECP2调控转录因子反应组通路数据集## 6代谢反应组通路数据集## Gene. paths .identifier Gene.有机体. shortname ## 1 R-HSA-1266738智人## 2 R-HSA-74160智人## 3 R-HSA-212436 H。R-HSA-9006925智人## 5 R-HSA-9022707智人## 6 R-HSA-1430728智人

8修改查询

8.1编辑约束

让我们修改查询以找到ABO基因的通路。我们希望将“value”属性从PPARG更改为ABO。

在InterMineR中有两种方法构建查询。

  1. 可以将查询构建为列表对象newQuery函数,并将所有输入值(检索数据类型的选择、约束等)赋值为该列表的项,

  2. 或者我们可以将查询构建为InterMineR-class对象的函数setConstraint,它允许我们生成一个新的或修改一个现有的约束列表,以及setQuery,它将查询生成为InterMineR-class对象。

setConstraints而且setQuery函数的设计是为了方便为InterMine实例生成查询,并避免使用多个迭代循环,特别是当需要在查询中包含多个约束或约束值(例如,基因,生物体)时。

([1]) # # # # # # $ path[[1]]的[1]”基因 " ## ## [[ 1]] op # #美元[1]”查找 " ## ## [[ 1]] $代码# #”[1] " ## ## [[ 1]]编辑# #美元[1]真正的# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”ABO血型 " ## ## ## [[ 2]] # # # # $ path[[2]]的[1]”Gene.organism.name " ## ## [[ 2]] op # #[1美元 ] "=" ## ## [[ 2]] $ B代码# #[1]” " ## ## [[ 2]]编辑# #美元[1]真正的# # # #可切换的# #美元[[2]][1]假# # # #[[2]]美元交换# #[1]”锁定 " ## ## [[ # # 2]]美元价值[1]“智人”

注意,该值现在等于' ABO '。让我们用新的约束重新运行查询。

# #基因。primaryIdentifier基因。基因名称## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 2 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 3 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 4 ABOα1-3-N-acetylgalactosaminyltransferase和α1-3-galactosyltransferase # # Gene.pathways.name Gene.pathways.dataSets.name # # 1 ABO血型生物合成Reactome通路数据集# # 2血型系统生物合成Reactome通路数据集# # 3 Reactome代谢通路数据集# # 4碳水化合物代谢Reactome通路数据集# # Gene.pathways.identifier Gene.organism.shortName # # 1 r - hsa - 9033807智人# # 2 r - hsa - 9033658智人# # 3 r - hsa - 1430728智人## 4 R-HSA-71387 H. sapiens

现在我们正在观察ABO基因的通路。

8.2添加一个新的约束

您还可以添加其他过滤器。让我们寻找一个特定的途径。

需要添加约束的四个部分:

  1. 路径
    1. 我从输出列中得到了路径,但我本可以从数据模型中找到它。
  2. 人事处
    1. 有效值:“=”,“!””、“=”、“查找”、“没有之一 ”, “>”, “<”, “>=”, “<=”, “ 像“
  3. 价值
    1. 我过滤的是什么值。
  4. 代码
    1. 必须是查询尚未使用的字母。查看上面的查询输出,我们可以看到我们只有一个约束,标记为“A”。让我们用' B '来表示代码。
([1]) # # # # # # $ path[[1]]的[1]”基因 " ## ## [[ 1]] op # #美元[1]”查找 " ## ## [[ 1]] $代码# #”[1] " ## ## [[ 1]]编辑# #美元[1]真正的# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”ABO血型 " ## ## ## [[ 2]] # # # # $ path[[2]]的[1]”Gene.pathways.name " ## ## [[ 2]] op # #[1美元 ] "=" ## ## [[ # # 2]]美元价值[1]”ABO血型的生物合成 " ## ## [[ 2]]代码# #美元[1]“B”

我们的新过滤器已经成功添加。重新运行查询,您将看到只有一条路径返回,即ABO血型生物合成。

# #基因。primaryIdentifier基因。符号## 1 28 ABO ## 2 MGI:2135738 ABO ##基因名## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## 2 ABO血型(转移酶A, α 1-3- n -乙酰半乳糖基转移酶,转移酶B,1-3-半乳糖转移酶)## gene . paths .name gene . paths . datassets .name ## 1 ABO血型生物合成反应组通路数据集## 2 ABO血型生物合成反应组通路数据集## gene . paths .identifier gene .有机体. shortname ## 1 R-HSA-9033807智人## 2 R-MMU-9033807小人人

8.3添加一列

还可以向输出中添加其他列。例如,基因是否也与任何疾病有关?让我们添加这个信息。

让我们来看看我们对疾病了解多少。

9{r add_column, warning=FALSE, message=FALSE} # model[which(model$type=="Gene"),] #

基因数据类型有一个类型为“疾病”的“疾病”引用。

10{r add_column2,警告=FALSE,消息=FALSE} #模型[which(模型$type=="疾病"),]#

疾病有一个属性叫“名”。将Gene.diseases.name添加到视图。我们将把它作为最后一列,我们可以看到上面已经有7个其他列了,所以我们将它作为#8:

“基因。primaryIdentifier”基因。符号" ## [3]"Gene.name" " gene . paths .name" " ## [5] " gene . paths . datasets .name" " gene . paths .name"标识符" ## [7]" gene .有机体. shortname " gene .disease .name"
“基因。primaryIdentifier”基因。符号" ## [3]"Gene.name" " gene . paths .name" " ## [5] " gene . paths . datasets .name" " gene . paths .name"标识符" ## [7]" gene .有机体. shortname " gene .disease .name"
##[1]真
# #基因。primaryIdentifier基因。符号## 1 28 ABO ##基因名称## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## Gene.pathways.name gene .pathways. datasdataset .name ## 1 ABO血型生物合成反应组途径数据集## Gene.pathways.identifier gene .有机体. shortname gene .disease .name ## 1 R-HSA-9033807智人血型,ABO系统

注意:添加列会改变行数。

10.1更改约束逻辑

如果没有给出constraintLogic,则为' A and B '。现在,我们将尝试显式地指定constraintLogic。A和B对应于每个约束的“代码”。

##[1]“A和B”

再次运行查询,没有看到变化:

# #基因。primaryIdentifier基因。符号## 1 28 ABO ##基因名称## 1 ABO, α 1-3- n -乙酰半乳糖基转移酶和α 1-3-半乳糖基转移酶## Gene.pathways.name gene .pathways. datasdataset .name ## 1 ABO血型生物合成反应组途径数据集## Gene.pathways.identifier gene .有机体. shortname gene .disease .name ## 1 R-HSA-9033807智人血型,ABO系统

改为“A或B”,看看结果如何变化。

11食谱

11.1获得与基因ABO相关的基因本体(GO)术语

  • 从模板Gene GO开始
# # # #元模型的名字# #“基因组”# # # # $ # #[1]“基因- - - >去。”## ## $description ##[1]“搜索特定基因(或基因列表)的GO注释。”## ## $select ##[1] "基因。primaryIdentifier“##[2]”基因。符号“##[3]”。标识“##[4]”Gene.goAnnotation.ontologyTerm.name“##[5]”Gene.goAnnotation.ontologyTerm.namespace“##[6]”Gene.goAnnotation.evidence.code。Gene.goAnnotation.ontologyTerm.parents. code" ## [7] "Gene.goAnnotation. ontologyterm .parents.name" ## [9] "Gene.goAnnotation. ontologyterm .parents.name" ## [9] "限定符“# # # # # # $ name[1]“Gene_GO“# # # # $ # #评论[1]”添加15 nov2010:毫升“# # # # # #标签美元[1]“我:方面:功能”“即时通讯:方面:基因本体“# #”[3]im:方面:基因组学”“我:首页“# #”[5]im:公共”“即时通讯:报告“# # # # $ # #排名[1]“4”授权# # # # # # $[1]假# # # # orderBy # # orderBy美元[[1]]# #基因。ASC primaryIdentifier # #” " ## ## ## $ 在# # $,[[1]]# # $,# # $ path[[1]][1]“基因”# # # #,[[1]]美元op # #[1]“查找”# # # #,[[1]]美元代码# #[1]”一个“# # # #,[[1]]美元可编辑# #[1]真正的# # # #,[[1]]美元可切换的# #[1]假# # # #,[[1]]美元交换# #[1]“锁定”# # # #,[[1]]美元价值# #[1]“PPARG”# # # #,[[1]]美元extraValue # #[1]“智人”
  • 修改视图以显示紧凑视图
“基因。符号“##[2]”。Gene.goAnnotation.ontologyTerm.name" ## [4] "Gene.goAnnotation.ontologyTerm.namespace"
  • 修改约束条件,寻找基因ABO。
([1]) # # # # # # $ path[[1]]的[1]”基因 " ## ## [[ 1]] op # #美元[1]”查找 " ## ## [[ 1]] $代码# #”[1] " ## ## [[ 1]]编辑# #美元[1]真正的# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”ABO血型 " ## ## [[ 1]] extraValue # #美元[1]“智人”
  • 运行查询
# #基因。象征Gene.goAnnotation.ontologyTerm.identifier # # 1 ABO血型去:0000139 # # 2 ABO血型:0000166 # # 3 ABO血型:0003823 # # 4 ABO血型:0004380 # # 5 ABO血型:0004381 # # 6 ABO血型:0004381 # # Gene.goAnnotation.ontologyTerm.name # # 1 # #高尔基体膜2核苷酸结合# # 3 # # 4糖蛋白抗原绑定- focusylgalactoside alpha-N-acetylgalactosaminyltransferase活动# # 5 focusylgalactoside 3-alpha-galactosyltransferase活动# # 6 # # 1 # # Gene.goAnnotation.ontologyTerm.namespace细胞外区域细胞成分## 2分子功能## 3分子功能## 4分子功能## 5分子功能## 6细胞成分

11.2获得基因本体(GO)术语“金属离子结合”相关基因

  • 从模板Gene GO开始
## $模型##名称##“基因组”## ## $title ##[1]“GO术语—>基因”## ## $description ##[1]“搜索与特定基因本体(GO)注释相关的特定生物体中的基因。”## ## $select ##[1] "基因。primaryIdentifier“##[2]”基因。符号“##[3]”Gene.name“##[4]”Gene.goAnnotation.ontologyTerm。标识符“# #”[5]Gene.goAnnotation.ontologyTerm.name“# #”[6]Gene.organism.shortName“# #”[7]Gene.goAnnotation.ontologyTerm.parents.name constraintLogic美元“# # # # # #”[1]B和C“# # # # # # $ name[1]“GOterm_Gene“# # # # $ # #评论[1]”添加26 oct2010:毫升“# # # # # #标签美元[1]“我:方面:功能”“即时通讯:方面:基因本体“# #”[3]im:方面:基因组学”“我:公共“# #”[5]im:报告“# # # # $ # #排名[1]“2”授权# # # # # # $[1]假# # # # orderBy # # orderBy美元[[1]]# #基因。# #“ASC象征 " ## ## ## $ 在# # $,[[1]]# # $,# # $ path[[1]][1]“Gene.organism.shortName”# # # # $ [[1]]op # #美元[1 ] "=" ## ## $ [[1]]代码# #美元[1]“B”# # # #,[[1]]美元可编辑# #[1]假# # # #,[[1]]美元可切换的# #[1]假# # # #,[[1]]美元交换# #[1]“锁定”# # # # $ # #[[1]]美元价值[1]“智人吗 " ## ## ## $ 在[[2]]# # $ # # $ path[[2]]的[1]“Gene.goAnnotation.ontologyTerm.parents.name”# # # # $ [[2]]op # #美元[1 ] "=" ## ## $ 在[[2]]代码# #美元[1]“C”# # # #$在[[2]]$editable ## [1] TRUE ## ## $where[[2]]$switchable ## [1] FALSE ## ## $where[[2]]$switched ## [1] "LOCKED" ## ## $where[[2]]$value ## [1] "DNA binding"
  • 修改视图以显示紧凑视图
“基因。符号“##[2]”Gene.name“##[3]”Gene.goAnnotation.ontologyTerm。标识符" ## [4]"Gene.goAnnotation.ontologyTerm.name"
  • 修改约束以寻找GO术语“金属离子结合”
([1]) # # # # # # $ path[[1]]的[1]”Gene.organism.shortName " ## ## [[ 1]] op # #[1美元 ] "=" ## ## [[ 1]] $ B代码# #[1]” " ## ## [[ 1]]编辑# #美元[1]假# # # #([1])可切换的# #美元[1]假# # # #([1])交换# #美元[1]”锁定 " ## ## [[ 1]] $ # #价值[1]”金属离子结合 " ## ## ## [[ 2]] # # # # $ path[[2]]的[1]”Gene.goAnnotation.ontologyTerm.parents.name " ## ## [[ 2]] op # #[1美元 ] "=" ## ## [[ 2]] $ # #[1]“C代码 " ## ## [[ 2]]编辑# #美元[1]真正的# # # #可切换的# #美元[[2]][1]假# # # #[[2]]美元交换# # [1]“锁定”## ## [[2]]$value ##[1]“DNA绑定”
  • 运行查询
# #空

11.3找到并绘制ABCA6基因50000个碱基对内的基因

  • 从Gene_Location模板开始,更新以搜索ABCA6基因。
# #基因。primaryIdentifier基因。secondaryIdentifier基因。符号## 1 23460 ENSG00000154262 ABCA6 ## Gene.name Gene.chromosome.primaryIdentifier ## 1 ATP结合盒亚家族A成员6 17 ## Gene.locations.start Gene.locations.end Gene.locations.strand ## 1 69062044 69141927 -1

我们将使用输出(基因位置)作为下一个查询的输入。

  • 定义一个新的查询
## path op值code ## 1 Gene.chromosome.primaryIdentifier = 17 A ## 2 Gene.locations.start >= 69012044 B ## 3 Gene.locations.end <= 69191927 C ## 4 Gene.organism.name = Homo sapiens D
  • 运行查询
# #基因。primaryIdentifier基因。符号Gene.chromosome.primaryIdentifier ## 1 100616316 MIR4524A 17 ## 2 100847008 MIR4524B 17 ## 3 23460 ABCA6 17 ## # Gene.locations.start Gene.locations.end Gene.locations.strand ## 1 69099564 69099632 -1 ## 2 69099542 69099656 1 ## 3 69062044 69141927 -1
  • 绘制基因图

12系统信息

## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=C LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基础包:## [1]grid stats4 stats graphics grDevices utils datasets ##[8]方法基础## ##其他附加包:## [1]Gviz_1.40.0 genome icranges_1 .48.0 GenomeInfoDb_1.32.0 ## [4] IRanges_2.30.0 S4Vectors_0.34.0 BiocGenerics_0.42.0 ## [7] InterMineR_1.18.0 BiocStyle_2.24.0 ## ##通过命名空间加载(并且未附加):# # # # [1] colorspace_2.0-3 rjson_0.2.21 [3] ellipsis_0.3.2 biovizBase_1.44.0 # # [5] htmlTable_2.4.0 XVector_0.36.0 # # [7] base64enc_0.1-3 dichromat_2.0-0 # # [9] rstudioapi_0.13 bit64_4.0.5 # # [11] AnnotationDbi_1.58.0 fansi_1.0.3 # # [13] sqldf_0.4-11 xml2_1.3.3 # # [15] splines_4.2.0 cachem_1.0.6 # # [17] knitr_1.38 Formula_1.2-4 # # [19] jsonlite_1.8.0 Rsamtools_2.12.0 # # [21] cluster_2.1.3 dbplyr_2.1.1 # # [23] png_0.1-7 BiocManager_1.30.17 # # [25] compiler_4.2.0 httr_1.4.2 # # [27] backports_1.4.1lazyeval_0.2.2 ## [29] assertthat_0.2.1 Matrix_1.4-1 ## [31] fastmap_1.1.0 cli_3.3.0 ## [33] htmltools_0.5.2 prettyunits_1.1.1 ## [35] tools_4.2.0 igraph_1.3.1 ## [37] gtable_0.3.0 glue_1.6.2 ## [39] GenomeInfoDbData_1.2.8 dplyr_1.0.8 ## [41] rappdirs_0.3.3 Rcpp_1.0.8.3 ## [43] Biobase_2.56.0 jquerylib_0.1.4 ## [45] vctrs_0.4.1 Biostrings_2.64.0 ## [47] RJSONIO_1.3-1.6 rtracklayer_1.56.0 ## [49] xfun_0.30 stringr_1.4.0 ## [51] proto_1.0.0 lifecycle_1.0.1 ## [53] ensembldb_2.20.0 restfulr_0.0.13 ## [55] XML_3.99-0.9 zlibbioc_1.42.0 ## [57] scales_1.2.0 BSgenome_1.64.0 ## [59] VariantAnnotation_1.42.0 ProtGenerics_1.28.0 ## [61] hms_1.1.1 MatrixGenerics_1.8.0 ## [63] parallel_4.2.0 SummarizedExperiment_1.26.0 ## [65] AnnotationFilter_1.20.0 RColorBrewer_1.1-3 ## [67] yaml_2.3.5 curl_4.3.2 ## [69] memoise_2.0.1 gridExtra_2.3 ## [71] ggplot2_3.3.5 sass_0.4.1 ## [73] biomaRt_2.52.0 rpart_4.1.16 ## [75] latticeExtra_0.6-29 stringi_1.7.6 ## [77] RSQLite_2.2.12 highr_0.9 ## [79] BiocIO_1.6.0 checkmate_2.1.0 ## [81] GenomicFeatures_1.48.0 filelock_1.0.2 ## [83] BiocParallel_1.30.0 chron_2.3-56 ## [85] rlang_1.0.2 pkgconfig_2.0.3 ## [87] matrixStats_0.62.0 bitops_1.0-7 ## [89] evaluate_0.15 lattice_0.20-45 ## [91] purrr_0.3.4 htmlwidgets_1.5.4 ## [93] GenomicAlignments_1.32.0 bit_4.0.4 ## [95] tidyselect_1.1.2 magrittr_2.0.3 ## [97] bookdown_0.26 R6_2.5.1 ## [99] magick_2.7.3 generics_0.1.2 ## [101] Hmisc_4.7-0 DelayedArray_0.22.0 ## [103] DBI_1.1.2 gsubfn_0.7 ## [105] pillar_1.7.0 foreign_0.8-82 ## [107] survival_3.3-1 KEGGREST_1.36.0 ## [109] RCurl_1.98-1.6 nnet_7.3-17 ## [111] tibble_3.1.6 crayon_1.5.1 ## [113] utf8_1.2.2 BiocFileCache_2.4.0 ## [115] rmarkdown_2.14 jpeg_0.1-9 ## [117] progress_1.2.2 data.table_1.14.2 ## [119] blob_1.2.3 digest_0.6.29 ## [121] munsell_0.5.0 bslib_0.3.1

13附录

13.1从数据库网页中派生查询视图的列名或查询约束中的路径名的可视化方法


InterMine模型可以通过点击“QueryBuilder”选项卡,并在“Select a data type to Begin a Query”下选择适当的数据类型来访问矿场主页:


这里我们选择Gene作为数据类型:


单击右侧的“显示”,可以选择“符号”和“染色体->主标识符”。然后点击网页右下角的“导出XML”:


列名为Gene。symbol和Gene.chromosome.primaryIdentifier包含在XML输出中: