geneAttribution
是一个R包,用于识别人类基因组中某一特定基因组位点变异最可能通过的基因或基因。一个典型的用例是全基因组关联研究(GWAS)的结果注释。GWAS鉴定的大多数变异位于非编码区域,可能通过影响基因表达而起作用(Maurano等,2012).在连锁不平衡区域,变异通常包含多个基因,识别致病基因是具有挑战性的。
的最基本功能geneAttribution
假设基因越接近输入位点,该基因就越有可能是致病基因。此外,任何将基因组区域与基因联系起来的经验数据(例如表达数量性状位点(eQTL)或基因组构象数据)都可以使用,如果它是在UCSC .BED文件格式。
#基本工作流程,默认参数图书馆(geneAttribution)geneLocs < -geneModels()#定义基因模型geneAttribution(“chr2”,127156000geneLocs)#获取候选基因概率
最基本的功能假设一个基因离输入位点越近,它就越有可能成为候选基因。到位点的距离和候选基因似然之间的关系被建模为指数分布。然后将每个基因的可能性归一化,除以可能性的总和。因此,在一个位点附近存在多个基因会降低单个基因的后验概率。
为了计算输入位点与基因之间的距离,需要建立基因模型。为此,geneAttribution
提供了geneModels ()
函数。geneModels ()
获取一个包含基因基因组坐标的TxDb对象作为输入,并以基因组范围格式返回基因模型,在象征
列。加载基因模型可能需要几分钟。TxDb输入的默认值是TxDb.Hsapiens.UCSC.hg38.knownGene
,其中包含基因组构建GRCh38的基因模型。另一种选择是TxDb.Hsapiens.UCSC.hg19.knownGene
,其中包含构建hg19的基因模型。genmodels函数有额外的可选输入:
maxGeneLength
.超过这个长度的基因模型被排除在外genesToInclude
而且genesToExclude
.一种包含(如只包含蛋白质编码基因)或不包含基因的基因符号的特征向量所需的最小输入geneAttribution ()
是与基因模型中格式相同的染色体标识符,并且是与基因模型中构造相同的染色体位置。的geneAttribution ()
函数有额外的可选输入:
λ
,\λ(\ \)基于指数分布建模候选基因似然的指数分布参数。默认值,基于来自基因组组织表达项目的经验eQTL数据(GTEx财团2015),是7.61e-06。减少λ
使靠近输入位点的基因有更高的概率而使远离输入位点的基因有更高的概率maxDist
,即从输入位点到考虑基因的最大距离。基因多于maxDist
远离输入轨迹的碱基将被忽略。默认值是1,000,000个碱基minPP
,即一个基因被报告的最小后验概率。后验概率小于minPP
将被总结为“其他”。将此设置为0以报告所有基因#典型的工作流程,使用geneAttribution提供的样本数据geneLocs < -geneModels()fileName1 < -执行(“extdata”,“hiCRegions.b38.bed”,包=“geneAttribution”)fileName2 < -执行(“extdata”,“eqtlHaplotypeBlocks.b38.bed”,包=“geneAttribution”)经验< -loadBed(c(fileName1 fileName2),c(2,5))geneAttribution(“chr2”,127156000, geneLocs, empirical)#如上所述,但使用用户提供的UCSC .BED格式的经验数据文件geneLocs < -geneModels()经验< -loadBed(“INPUT_FILE.bed”,重量=1.5)# INPUT_FILE。bed是一个格式正确的。bed文件geneAttribution(“chr2”,127156000, geneLocs, empirical)
此外,geneAttribution
可以利用将基因组位点与基因联系起来的经验数据。将遗传变异与特定基因表达联系起来的eqtl就是一个例子。如果输入位点位于经验数据中定义的区域内,则相关基因的可能性乘以相关权重。方法加载用户提供的经验数据loadBed ()
函数。
loadBed函数读取用户提供的UCSC . bed格式的文件。. bed文件必须用制表符分隔,列必须按照以下顺序:染色体、开始、结束、基因符号。可选的第五分数栏也可以提供。经验数据中使用的基因符号必须与基因模型中使用的符号相匹配,基因组构建(例如GRCh38)也必须与基因模型的基因组构建相匹配。
与. bed文件一起,可以提供数据的权重。默认值为2,如果输入位点位于经验数据定义的区域,则基因的可能性增加一倍。权重为1不会改变可能性,而权重小于1则会降低可能性。除了读取. bed文件外,用户还可以将经验数据自己构建为一个包含权重的得分列的GenomicRanges对象列表。
的extdata
目录在基因组构建GRCh38中提供了两个。bed文件:
hiCRegions.b38.bed
,其中包含捕获Hi-C基因组构象数据,将启动子连接到GM12878 CD34细胞系的其他基因组区域(Mifsud等,2015)eqtlHaplotypeBlocks.b38.bed
,该项目定义了至少在两种不同组织中具有eqtl的单倍型区块(GTEx财团2015)因为这两个文件都是作为示例提供的,所以它们被限制在2号染色体上一个10mb的区域(120,000,000-130,000,000)。
的输出。geneAttribution
函数是候选基因概率的命名数字向量。在某些情况下,知道候选基因的坐标可能是有用的,因为这种注释可以帮助进一步处理包装结果。它可以通过对基因模型对象进行子集化很容易地获得。