APAlyzer 1.10.0
APAlyzer是一个使用RNA测序数据对选择性聚腺苷酸化(APA)事件进行生物信息学分析的工具包。我们的主要方法是比较在PolyA_DB数据库(https://exon.apps.wistar.org/PolyA_DB/v3/)(Wang et al. 2017,2018).当前版本使用RNA-seq数据来检查3 '非翻译区域(3 ' utr)和内含子中的APA事件。编码区域用于基因表达计算。
APAlyzer应该使用BiocManager安装:
如果(!"BiocManager" %in% rownames(installed.packages())) install.packages("BiocManager")
或者,它也可以按以下方式安装:
R CMD安装APAlyzer.tar.gz
此外,用户还可以直接从GitHub安装APAlyzer的开发版本:
BiocManager::安装(“RJWANGbioinfo / APAlyzer”)
安装后,APAlyzer可用于:
库(APAlyzer)
该包读取BAM文件以获取不同基因组区域的读取覆盖率信息。的示例中指定示例BAM文件的路径TBX20BamSubset(Bindreither 2018)包数据。在本例中,BAM文件对应于鼠标RNA-seq数据(映射到mm9)。
suppressMessages(library(" tbx20bam子集"))suppressMessages(library("Rsamtools")) flsall = getBamFileList() flsall
/home/biocbuild/ bs-3.15-bio /R/library/ tbx20bam子集/extdata/SRR316184。/home/biocbuild/ bs-3.15-bio /R/library/ tbx20bam子集/extdata/SRR316185。/home/biocbuild/ bs-3.15-bio /R/library/ tbx20bam子集/extdata/SRR316186。/home/biocbuild/ bs-3.15-bio /R/library/ tbx20bam子集/extdata/SRR316187。/home/biocbuild/ bs-3.15-bio /R/library/ tbx20bam子集/extdata/SRR316188。## SRR316189 ## "/home/biocbuild/ bs-3.15-bio /R/library/ tbx20bam子集/extdata/SRR316189.bam"
基因组中的PAS引用(3 ' utr和内含子)是我们的包所需要的。我们已经预先构建了一个小鼠基因组参考文件(mm9),它可以从extdata
:
库(repmis) URL = " https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/ "文件= " mm9_REF。RData”source_data (paste0 (URL,文件,“?生= True”))
从:https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/mm9_REF.RData?raw=True下载数据
## fa117a77976a6931e4755a3182544df1d1de7eb6
## [1] "refUTRraw" "dfIPA" " dfl "
这extdata
包括3 ' utr APA区域(refUTRraw)、IPA区域(dfIPA)和3 ' -most外显子区域(dfl)。的refUTRraw
为包含6列3'UTR PASs基因组信息的数据帧:
头(refUTRraw, 2)
## gene_symbol Chrom Strand First Last cdsend ## 1 Xkr4 chr1 - 3204561 3189814 3206103 ## 2 Lypla1 chr1 + 4835237 4836816 4835097
dfIPA
是包含8列Intronic PASs的数据帧;'上游'指离IPA最近的5 '或3 '拼接点,'下游'指离IPA最近的3 '拼接点:
头(dfIPA, 2)
## PASid gene_symbol Chrom Strand Pos upstreamSS downstreamSS ## 5 chr4:32818455:+ Mdn1 chr4 + 32818455 32818305 32818889 ## 10 chr4:32837613:+ Mdn1 chr4 + 32837613 32837452 32837887
dfLE
是包含5列3 '最小外显子的数据帧;' LEstart '表示最后3 '外显子的基因组起始位置。
头(dfLE, 2)
## gene_symbol Chrom Strand LEstart TES ## 1 0610009O20Rik chr18 + 38421534 38425118 ## 2 0610010F05Rik chr11 - 23465136 23462079
除了小鼠mm9之外,我们的软件包还有小鼠mm10、人类hg38和人类hg19基因组的预构建版本:
URL = " https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/ "文件= " hg19_REF。RData”source_data (paste0 (URL,文件,“?生= True”))
从:https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/hg19_REF.RData?raw=True下载数据
下载数据文件的SHA-1哈希值为:## 7ba8e91beba626318e48736692d6442480d1ef06
## [1] "refUTRraw_hg19" "dfIPA_hg19" "dfLE_hg19"
更多的预构建参考可以在参考和测试数据回购中找到:https://github.com/RJWANGbioinfo/PAS_reference_RData_and_testing_data
为了量化PAS的相对表达式,我们需要为它们构建参考区域,尽管这可以在以前的版本中单独构建。我们还提供了一个新功能REF4PAS
从APAlyzer 1.2.1开始立即构建这些区域:
refUTRraw=refUTRraw[which(refUTRraw$Chrom=='chr19'),] dfIPAraw=dfIPA[which(dfIPA$Chrom=='chr19'),] dfLEraw= dfIPA[which(dfIPA$Chrom=='chr19'),] PASREF=REF4PAS(refUTRraw,dfIPAraw,dfLEraw) UTRdbraw=PASREF$UTRdbraw dfIPA=PASREF$dfIPA dfale =PASREF$dfIPA dfale =PASREF$dfIPA dfale =PASREF$dfIPA dfale)
在这种情况下,UTRdbraw
3'UTR APA分析的参考区域为dfIPA
而且dfLE
在内含子APA分析中是必需的。
尽管我们强烈建议用户使用从PolyA_DB生成的引用区域。从APAlyzer 1.2.1开始,我们还提供了一个新的功能,可以帮助用户直接从基因注释GTF文件中建立参考,我们希望这可以帮助到PolyA_DB还没有覆盖的物种:
##建立鼠标中3'UTR PASs的参考范围download.file(url='ftp://ftp.ensembl.org/pub/release-99/gtf/mus_musculus/Mus_musculus.GRCm38.99.gtf.gz', destfile='Mus_musculus.GRCm38.99.gtf.gz') GTFfile="Mus_musculus.GRCm38.99.gtf.gz" PASREFraw=PAS2GEF(GTFfile) refUTRraw= PAS2GEF $refUTRraw dfIPAraw=PASREFraw$dfIPA dfLEraw=PASREFraw$ dfIPA PASREF=REF4PAS(refUTRraw,dfIPAraw,dfLEraw)
从APAlyzer 1.9.1开始,可以通过设置两个注释方法AnnoMethod =
要注释PAS, ' legacy '或' V2 '(默认),' legacy '是以前版本中使用的旧方法,而' V2 '是更新和改进的版本。
为了计算3'UTR APA相对表达式(RE),首先需要用定义aUTR和cUTR的参考区域refUTRraw
.由于示例数据只包含chr19上的映射信息,我们可以只放大到chr19上的引用区域:
refUTRraw = refUTRraw ((refUTRraw铬美元= =“chr19”),]UTRdbraw = REF3UTR (refUTRraw)
的REF3UTR
函数返回每个基因的基因组范围,包含aUTR(pPAS到das)和cUTR(cdsend到pPAS)区域:
头(UTRdbraw, 2)
##长度为2的GRangesList对象:## $ ' 1700020D05Rik__aUTR ' ## GRanges对象具有1个范围和2个元数据列:## seqnames ranges strand | gene_symbol gene_name ## | ## 10082 chr19 5492231-5495277 - | 1700020D05Rik 1700020D05Rik__aUTR ## ------- ## seqinfo: 21个序列来自一个未指定的基因组;no seqlength## ## $ ' 1700020D05Rik__cUTR ' ## GRanges对象具有1个范围和2个元数据列:## seqnames ranges strand | gene_symbol gene_name ## | ## 100821 chr19 5495277-5502867 - | 1700020D05Rik 1700020D05Rik__cUTR ## ------- ## seqinfo: 21个序列来自一个未指定的基因组;没有seqlengths
一旦确定了cUTR和aUTR区域,就可以计算出每个基因的3'UTR APA的REPASEXP_3UTR
:
DFUTRraw = PASEXP_3UTR (UTRdbraw、flsall Strandtype =“转发”)
## [1] "SRR316184, Strand: forward, finished" ## [1] "SRR316185, Strand: forward, finished" ## [1] "SRR316186, Strand: forward, finished" ## [1] "SRR316187, Strand: forward, finished" ## [1] "SRR316188, Strand: forward, finished" ## [1] "SRR316189, Strand: forward, finished"
的PASEXP_3UTR
3UTR需要两个输入:1)aUTR和cUTR参考区域,2)BAM文件的路径。除了输入之外,还可以使用定义序列的链Strandtype
.详细的用法也可以通过命令获取PASEXP_3UTR ?
.输出数据帧包括每个基因的读取计数(在aUTR或cUTR中),RPKM(在aUTR或cUTR中)和RE (log2(aUTR/cUTR)):
头(DFUTRraw, 2)
# # 1 # # gene_symbol SRR316184_areads SRR316184_aRPKM SRR316184_creads 1700020 d05rik 0 0 31 # # 2 1810009 a15rik 0 0 0 # # SRR316184_cRPKM SRR316184_3UTR_RE SRR316185_areads SRR316185_aRPKM # 118.4358 # 1负0 0 # # 2 0.0000南0 0 # # SRR316185_creads SRR316185_cRPKM SRR316185_3UTR_RE SRR316186_areads 20 74.34672负0 # # 1 # # 2 0 0.00000南0 # # SRR316186_aRPKM SRR316186_creads SRR316186_cRPKM SRR316186_3UTR_RE # # 1 0 23 87.90994负无穷到# # 2 0 0 0.00000南# # SRR316187_areads SRR316187_aRPKMSRR316187_creads SRR316187_cRPKM 33 # # 1 0 0 0.00000 88.85001 # # 2 0 0 0 # # SRR316187_3UTR_RE SRR316188_areads SRR316188_aRPKM SRR316188_creads 33 # # 1负0 0 # # 2南0 0 0 # # SRR316188_cRPKM SRR316188_3UTR_RE SRR316189_areads SRR316189_aRPKM # 77.68085 # 1负0 0 # # 2 0.00000南0 0 # # SRR316189_creads SRR316189_cRPKM SRR316189_3UTR_RE # 31.76981 # 1 11负无穷到# # 2 0 0.00000南
IPA的分析需要两个基因组区域:IPA区域和3 ' -most外显子。如上所述,老鼠和人类基因组中的这些区域已经预先构建在包中:
#鼠标(mm9): URL = " https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/ "文件= " mm9_REF。RData”source_data (paste0 (URL,文件,“?生= True”))
从:https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/mm9_REF.RData?raw=True下载数据
## fa117a77976a6931e4755a3182544df1d1de7eb6
## [1] "refUTRraw" "dfIPA" " dfl "
#人类(hg19): URL = " https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/ "文件= " hg19_REF。RData”source_data (paste0 (URL,文件,“?生= True”))
从:https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/hg19_REF.RData?raw=True下载数据
下载数据文件的SHA-1哈希值为:## 7ba8e91beba626318e48736692d6442480d1ef06
## [1] "refUTRraw_hg19" "dfIPA_hg19" "dfLE_hg19"
与3'UTR APA类似,IPAs的RE可以用PASEXP_IPA计算:PASEXP_IPA
:
dfIPA=dfIPA[which(dfIPA$Chrom=='chr19'),] dflle = dflle [which(dfIPA$Chrom=='chr19'),] IPA_OUTraw=PASEXP_IPA(dfIPA, dflle, flsall, Strandtype="forward", nts=1)
注意,作为IPA的一个特定特性,可以使用' nts= '(传递给Rsubread:: featucounts的参数,检查)设置更多线程? Rsubread:: featureCounts
以提高计算速度。详细用法可以通过命令获取PASEXP_IPA ?
.
输出数据帧包含读计数和读密度IPA上游(a), IPA下游(b)和3 ' -most外显子区域(c)。IPA的RE计算为log2((a - b)/c)。
头(IPA_OUTraw, 2)
# # 1 # # gene_symbol IPAID PASid 9130011 e15rik chr19:45894071: -9130011 e15rik chr19:45894071: - # # 2 9130011 e15rik chr19:45952090: -9130011 e15rik chr19:45952090: - - - - - - # # SRR316184_IPA_UPreads SRR316184_IPA_UPRPK SRR316184_IPA_DNreads 1 1.445087 0 # # 2 # # 104 12.453598 26 # # SRR316184_IPA_DNRPK SRR316184_LEreads SRR316184_LERPK SRR316184_IPA_RE # # 96 0.0000000 96 59.47955 - -5.363166 # # 2 0.8276828 59.47955 - -2.355049 # # SRR316185_IPA_UPreads SRR316185_IPA_UPRPK SRR316185_IPA_DNreads 0.00000 - 1 # # # # 1 0212114.4892820 ## SRR316185_IPA_DNRPK SRR316185_LEreads SRR316185_LERPK SRR316185_IPA_RE ## 1 1.6611296 96 59.47955 0.000000 ## 2 0.6366791 96 59.47955 -2.102237 ## SRR316186_IPA_UPreads SRR316186_IPA_UPRPK SRR316186_IPA_DNreads ## 1 0 0.00000 0 ## 2 108 12.93258 13 ## SRR316186_IPA_DNRPK SRR316186_LEreads SRR316186_LERPK SRR316186_IPA_RE ## 1 0.0000000 69 42.75093 0.000000 ## 2 0.4138414 69 42.75093 -1.771866 ## SRR316187_IPA_UPreads SRR316187_IPA_UPRPK SRR316187_IPA_DNreads ## 1 0 0.00000 0 ## 2 199 23.82948 22 ## SRR316187_IPA_DNRPK SRR316187_LEreads SRR316187_LERPK SRR316187_IPA_RE ## 1 0.000000 40 24.78315 0.00000000 ## 2 0.700347 40 24.78315 -0.09964814 ## SRR316188_IPA_UPreads SRR316188_IPA_UPRPK SRR316188_IPA_DNreads ## 1 1 1.445087 0 ## 2 207 24.787451 15 ## SRR316188_IPA_DNRPK SRR316188_LEreads SRR316188_LERPK SRR316188_IPA_RE ## 1 0.0000000 55 34.07683 -4.5595631 ## 2 0.4775093 55 34.07683 -0.4872446 ## SRR316189_IPA_UPreads SRR316189_IPA_UPRPK SRR316189_IPA_DNreads ## 1 1 1.445087 0 ## 2 226 27.062627 15 ## SRR316189_IPA_DNRPK SRR316189_LEreads SRR316189_LERPK SRR316189_IPA_RE ## 1 0.0000000 46 28.50062 -4.3017653 ## 2 0.4775093 46 28.50062 -0.1003744
一旦获得每个样本的读覆盖信息,就可以比较两个不同组之间的APA调节差异。在本分析中,有两种实验设计:1)不重复;2)与复制。将根据设计生成一个样例表:
#使用复制sampleTable1 = data.frame(samplename = c(names(flsall)), condition = c(rep("NT",3),rep("KD",3))) sampleTable1 .frame
## samplename条件## 1 SRR316184 NT ## 2 SRR316185 NT ## 3 SRR316186 NT ## 4 SRR316187 KD ## 5 SRR316188 KD ## 6 SRR316189 KD
#不复制样本表sampleTable2 = data.frame(samplename = c("SRR316184","SRR316187"), condition = c("NT","KD")
## 1 SRR316184 NT ## 2 SRR316187 KD
为了分析不重复的样品(例中KD组和NT组)之间的3'UTR APA,sampleTable2
使用。这里使用的函数被调用APAdiff
(详细信息可以通过命令获取APAdiff ?
).它将首先检查样本表,以确定它是复制设计还是非复制设计。然后进行APA的同情。
#使用非重复设计分析KD和NT组之间的3'UTR APA test_3utsing =APAdiff(sampleTable2,DFUTRraw, conKET='NT', trtKEY='KD', PAS='3UTR', CUTreads=0, p_adjust_methods="fdr")
的APAdiff
函数需要两个输入:1)定义样本组/条件的样本表,2)读取aUTRs和cUTRs的覆盖率信息,这些信息可以通过PASEXP_3UTR
从上一步开始。组名,即治疗或控制,可以定义为btrtKEY =
而且conKET =
;所分析的PAS类型应定义为不是=
;用于aUTR和cUTR的读截止由定义CUTreads =
默认值为0;定义了p值校正的方法p_adjust_methods =
默认值为' fdr '。在非重复设计中,将在两个样本之间比较APA模式,并将输出显示在数据框中:
头(test_3UTRsing, 2)
## gene_symbol RED pvalue p_adj apareg# # 3 1810055G02Rik -0.1195816 1.0000000 1.0000000 NC ## 4 2700081O15Rik 0.3862662 0.3292784 0.8007581 NC
表(test_3UTRsing APAreg美元)
## ## dn nc up ## 31 246
输出包含4列:“基因符号”描述基因信息;RED为两组间相对表达差异;“pvalue”是基于Fisher确切检验的统计显著性;' p_adj '是FDR调节的pvalue, ' APAreg '是基因中3'UTR APA调节模式。我们在“APAreg”中定义了3种类型,“UP”表示治疗组的aUTR丰度(在本例中为“KD”)比对照组(在本例中为“NT”)至少高5%,“pvalue”<0.05;' DN '表示处理组的aUTR丰度比对照组低5%,p-value<0.05;' NC '是剩下的基因。对于3'UTR大小的变化,' UP '表示3'UTR变长,' DN ' 3'UTR变短。
对于重复设计,我们使用t检验进行显著性分析。然而,其他基于负二项数据分布的工具,如
DEXSeq(安德斯,雷耶斯,和W. 2012)也可以用。
#使用多副本设计分析KD和NT组之间的3'UTR APA test_3utmuti =APAdiff(sampleTable1, DFUTRraw, conKET='NT', trtKEY='KD', PAS='3UTR', CUTreads=0, p_adjust_methods="fdr", MultiTest='unpaired t-test') head(test_3utmuti,2)
## gene_symbol RED pvalue p_adj apareg# # 3 1810055G02Rik -0.7631689 0.08590526 0.4961374 NC ## 4 2700081O15Rik 0.1872116 0.07691742 0.4961374 NC
表(test_3UTRmuti APAreg美元)
## ## dn nc up ## 24 226
在复制设计中,附加参数MultiTest
可以用来设置统计方法。当前版本可设置3种方法:“unpaired t-test”(默认),“paired t-test”,“ANOVA”。运行后APAdiff
,会生成几列:‘RED’为两组平均相对表达式的差值;' pvalue '是通过定义的方法计算的p值MultiTest
.“APAreg”是预测的APA规制方向;' UP '定义为' RED ' >0, ' pvalue ' <0.05;而' DN '是相反的;' NC '是剩下的基因。
IPA的比较与APA使用的3'UTR相似APAdiff
除了(1)使用IPA表达式作为输入,(2)' PAS= '需要定义为' IPA ',(3)对每个IPA进行分析。值得注意的是,IPA的调控方向与3’utr APA的调控方向相似。这意味着“UP”被定义为IPA的上调(RED > 0);' DN '是相反的;' NC '是剩下的基因。
无重复的KD组和NT组间IPA分析如下:
test_IPAsing=APAdiff(sampleTable2, IPA_OUTraw, conKET='NT', trtKEY='KD', PAS='IPA', CUTreads=0, p_adjust_methods="fdr") head(test_IPAsing,2)
## gene_symbol PASid RED pvalue p_adj APAreg ## 2 9130011E15Rik chr19:45952090:- 2.255401 1.790010e-12 3.615821e-10 UP ## 5 Ablim1 chr19:57151655:- 0.626637 5.392007e-01 1.000000e+00 NC
使用复制数据分析KD组和NT组之间的IPA如下:
test_IPAmuti=APAdiff(sampleTable1, IPA_OUTraw, conKET='NT', trtKEY='KD', PAS='IPA', CUTreads=0, p_adjust_methods="fdr", MultiTest='unpaired t-test') head(test_IPAmuti,2)
## gene_symbol PASid RED pvalue p_adj APAreg ## 2 9130011E15Rik chr19:45952090:- 1.84729507 0.001294432 0.2808917 UP ## 5 Ablim1 chr19:57151655:- -0.09466715 0.900027947 0.9480877 NC
从APAlyzer 1.2.1开始,我们提供了两个新的函数称为APAVolcano
而且APABox
供用户使用火山图和箱形图绘制RED结果。在火山图中,用户还可以使用标记顶部基因顶级=
或者一组特定的基因使用markergenes =
,例如:
APAVolcano(test_3utsing, PAS='3UTR', Pcol = "pvalue", top=5, main='3UTR APA')
在方框图中,RED是在' UP ', ' DN '和' NC '基因上绘制的:
APABox(test_3UTRsing, xlab = "APAreg", ylab = "RED", plot_title = NULL)
除了火山和箱形图,APA比较结果也可以用箱形图或小提琴图或CDF曲线绘制。对于前面的3'UTR APA和IPA比较输出,首先需要构建绘图数据框架:
test_3UTRmuti APA =“3 'utr”test_IPAmuti APA美元=“音标”dfplot = rbind (test_3UTRmuti [c(“红”,APA)], test_IPAmuti [c(“红”,APA)])
用来制作小提琴图和CDF曲线ggplot2:
库(ggplot2)
### violle ggplot(dfplot, aes(x = APA, y = RED)) + geom_violle (trim = FALSE) + geom_boxplot(width = 0.2)+ theme_bw() + geom_hline(yintercept=0, linetype="虚线",color ="红色")
###CDF ggplot(dfplot, aes(x = RED, color = APA)) + stat_ecdf(geom =" step") + ylab("cumulative fraction")+ geom_vline(xintercept=0, linetype="虚线",color ="灰色")+ theme_bw() + geom_hline(yintercept=0.5, linetype="虚线",color ="灰色")
APA常参与基因表达调控。为了比较不同样本中的基因表达与APA的差异,我们的软件包提供了一个简单的函数,使用映射到编码序列的RNA-seq读取来评估表达变化。
suppressMessages(library(" genome icfeatures "))file("extdata", "mm9.chr19.refGene.R.DB", package="APAlyzer") txdb=loadDb(extpath, packageName=' genome icfeatures ') IDDB = org.Mm.eg.db CDSdbraw=REFCDS(txdb,IDDB)
'select()'返回键和列之间的many:1的映射
DFGENEraw = GENEXP_CDS (CDSdbraw、flsall Strandtype =“转发”)
## [1] "SRR316184, Strand: forward, finished" ## [1] "SRR316185, Strand: forward, finished" ## [1] "SRR316186, Strand: forward, finished" ## [1] "SRR316187, Strand: forward, finished" ## [1] "SRR316188, Strand: forward, finished" ## [1] "SRR316189, Strand: forward, finished"
从APAlyzer 1.5.5开始,我们提供了一个名为ThreeMostPairBam
用于用户从成对端bam文件中提取三质数最多对齐并将其保存到一个新的bam文件中。例如:
##提取一个成对端## bam文件的3质数最对齐,并保存到一个新的bam文件Bamfile='/path/to/inputdir/input。' Outdir='/path/to/ Outdir /' StrandType="forward-reverse" ## "forward-reverse", or "reverse-forward" or "NONE"
输出bamfile(一个名为*.3most的bam文件。bam位于Outdir
)可作为输入文件PASEXP_3UTR
.使用这个bam文件PASEXP_IPA
,用户需要设置SeqType
到" ThreeMostPairEnd ",例如:
ThreemostBamfile = " test.3most。bam" IPA_OUTraw=PASEXP_IPA(dfIPA, dfl, ThreemostBamfile, Strandtype="forward", SeqType="ThreeMostPairEnd")
为了使用我们的包提供一个完整的APA分析教程,我们现在准备了一个测试数据集,通过向下采样小鼠心脏(GSM900193)和睾丸(GSM900199)的RNA-Seq数据:
样品标识 | SRRID | 样品名称 | 下采样读取 |
---|---|---|---|
GSM900199 | SRR453175 | Heart_Rep1 | 500万年 |
GSM900199 | SRR453174 | Heart_Rep2 | 500万年 |
GSM900199 | SRR453173 | Heart_Rep3 | 500万年 |
GSM900199 | SRR453172 | Heart_Rep4 | 500万年 |
GSM900193 | SRR453143 | Testis_rep1 | 500万年 |
GSM900193 | SRR453142 | Testis_rep2 | 500万年 |
GSM900193 | SRR453141 | Testis_rep3 | 500万年 |
GSM900193 | SRR453140 | Testis_rep4 | 500万年 |
download_testbam () flsall < - dir (getwd(),“本”)flsall < -paste0 (getwd(),“/”,flsall)名称(flsall) < -gsub(‘本’,”迪尔(getwd(),“本”))
库(repmis) URL = " https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/ "文件= " mm9_REF。RData”source_data (paste0 (URL,文件,“?生= True”))PASREF=REF4PAS(refUTRraw,dfIPA,dfLE) UTRdbraw=PASREF$UTRdbraw dfIPA=PASREF$dfIPA dfLE=PASREF$dfLE
UTR_APA_OUT=PASEXP_3UTR(UTRdbraw, flsall, Strandtype="invert") IPA_OUT=PASEXP_IPA(dfIPA, dfl, flsall, Strandtype="invert", nts=1)
############# 3utr APA ################# sampleTable = data.frame(samplename = c('Heart_rep1', 'Heart_rep2', 'Heart_rep3', 'Heart_rep4', ' tests_rep1 ', ' tests_rep2 ', ' tests_rep3 ', ' tests_rep4 '), condition = c(rep("Heart",4), rep(" tests ",4)) test_3UTRAPA=APAdiff(sampleTable, ut_apa_out, conKET='Heart', trtKEY=' tests ', PAS=' 3utr ', CUTreads=5)
表(test_3UTRAPA APAreg美元)
## ## dn nc up ## 490 719 80
APAVolcano(test_3UTRAPA, PAS='3UTR', Pcol = "pvalue", plot_title='3UTR APA')
APABox(test_3UTRAPA, xlab = "APAreg", ylab = "RED", plot_title = NULL)
############# 异丙醇 ################# test_IPA = APAdiff (sampleTable IPA_OUT conKET =‘心’,trtKEY =“睾丸”,不等于“音标”,CUTreads = 5)
表(test_IPA APAreg美元)
## ## dn nc up ## 125 924 312
apvolcano (test_IPA, PAS='IPA', Pcol = "pvalue", plot_title='IPA')
APABox(test_IPA, xlab = "APAreg", ylab = "RED", plot_title = NULL)
如何生成用于分析的BAM文件列表?
包含BAM文件名和文件路径的BAM文件列表。假设所有的BAM文件都存储在bamdir中,那么BAM文件列表可以通过以下方式获得:
Flsall =dir(bamdir,".bam") Flsall =paste0(bamdir, Flsall) names(Flsall)=dir(bamdir,".bam")
为什么当我尝试使用makeTxDbFromUCSC获得txdb时,我得到错误消息?
您可以尝试升级您的Bioconductor,或使用GTF加载基因组注释,或使用' . r.db '文件加载预构建基因组注释,例如mm9.refGene.R.DB。
会话信息记录了本文档生成过程中使用的所有包版本。
sessionInfo ()
## R版本4.2.0 RC (22-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 20.04.4 LTS ## ##矩阵产品:default ## BLAS: /home/biocbuild/bbs-3.15-bio /R/lib/libRblas. ##因此## LAPACK: /home/biocbuild/bbs-3.15-bio /R/lib/libRlapack。因此## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# [3] LC_TIME=en_GB LC_COLLATE= c# [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# [9] LC_ADDRESS=C LC_TELEPHONE= c# [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ## [8] base ## ##其他附加的包:# [7] repmis_0.5 TBX20BamSubset_1.31.0 Rsamtools_2.12.0 ## [10] Biostrings_2.64.0 XVector_0.36.0 genomics icranges_1 .48.0 ## [13] GenomeInfoDb_1.32.0 IRanges_2.30.0 S4Vectors_0.34.0 ## [16] BiocGenerics_0.42.0 APAlyzer_1.10.0 BiocStyle_2.24.0 ## ##通过命名空间加载(并没有附加):# [9] splines_4.2.0 R.methodsS3_1.8.1 ## [11] cachem_1.0.6 geneplotter_1.74.0 ## [13] jsonlite_1.8.0 annotate_1.74.0 ## [15] dbplyr_2.1.1 png_0.1-7 ## [17] R.oo_1.24.0 BiocManager_1.30.17 ## [19] compiler_4.2.0 httr_1.4.2 ## [21] assertthat_0.2.1 Matrix_1.4-1 ## [23] fastmap_1.1.0 cli_3.3.0 ## [25] htmltools_0.5.2 prettyunits_1.1.1 ## [27] tools_4.2.0gtable_0.3.0 # # [29] glue_1.6.2 GenomeInfoDbData_1.2.8 # # [31] dplyr_1.0.8 rappdirs_0.3.3 # # [33] Rcpp_1.0.8.3 jquerylib_0.1.4 # # [35] vctrs_0.4.1 rtracklayer_1.56.0 # # [37] xfun_0.30 stringr_1.4.0 # # [39] lifecycle_1.0.1 restfulr_0.0.13 # # [41] xml_3.99 - 0.9 zlibbioc_1.42.0 # # [43] scales_1.2.0 BSgenome_1.64.0 # # [45] VariantAnnotation_1.42.0 hms_1.1.1 # # [47] MatrixGenerics_1.8.0 parallel_4.2.0 # # [49] SummarizedExperiment_1.26.0 RColorBrewer_1.1-3 # # [51] yaml_2.3.5 curl_4.3.2 # # [53]## [55] biomaRt_2.52.0 stringi_1.7.6 ## [57] RSQLite_2.2.12 highr_0.9 ## [59] genefilter_1.78.0 BiocIO_1.6.0 ## [61] filelock_1.0.2 BiocParallel_1.30.0 ## [63] Rsubread_2.10.0 rlang_1.0.2 ## [65] pkgconfig_2.0.3 matrixStats_0.62.0 ## [67] bitops_1.0-7 evaluate_0.15 ## [69] lattice_0.20-45 purrr_0.3.4 ## [71] labeling_0.4.2基因组校正s_1.32.0 ## [73] bit_4.0.4 tidyselect_1.1.2 ## [75] plyr_1.8.7 magrittr_2.0.3 ## [79] R6_2.5.1magick_2.7.3 # # [81] generics_0.1.2 DelayedArray_0.22.0 # # [83] DBI_1.1.2 withr_2.5.0 # # [85] pillar_1.7.0 survival_3.3-1 # # [87] KEGGREST_1.36.0 rcurl_1.98 - 1.6 # # [89] tibble_3.1.6 crayon_1.5.1 # # [91] HybridMTest_1.40.0 utf8_1.2.2 # # [93] BiocFileCache_2.4.0 rmarkdown_2.14 # # [95] progress_1.2.2 locfit_1.5 - 9.5 # # [97] grid_4.2.0 data.table_1.14.2 # # [99] blob_1.2.3 digest_0.6.29 # # [101] xtable_1.8-4 R.cache_0.15.0 # # [103] tidyr_1.2.0 R.utils_2.11.0 # # [105] munsell_0.5.0 bslib_0.3.1
我们感谢滨天实验室成员的有益讨论和包测试。
安德斯,S., A.雷耶斯,Huber W. 2012。从Rna-Seq数据中检测外显子的差异使用。基因组研究22日:4025。https://doi.org/10.1101/gr.133744.111.
Bindreither, d . 2018。tbx20bam子集:来自"Tbx20"实验的Bam文件的子集.
王锐,R. Nambiar, D.郑,田斌。2017。PolyA_DB 3编目多重基因组深度测序鉴定的裂解和多聚腺苷酸化位点。核酸的研究46 (D1): D315-D319。https://doi.org/10.1093/nar/gkx1000.
王锐,郑东,G. Yehia,田波。2018。哺乳动物基因中保守的卵裂和多聚腺苷酸化事件的纲目。基因组研究28日(10):1427 - 41。https://doi.org/10.1101/gr.237826.118.