APAlyzer 1.13.0
APAlyzer是一个使用RNA测序数据进行选择性多聚腺苷酸(APA)事件生物信息学分析的工具包。我们的主要方法是比较PolyA_DB数据库(https://exon.apps.wistar.org/PolyA_DB/v3/)(Wang et al. 2017,2018).目前的版本使用RNA-seq数据来检查3 '非翻译区域(3 ' utr)和内含子中的APA事件。编码区域用于基因表达计算。
APAlyzer应使用BiocManager安装:
如果(!"BiocManager" %in% rownames(installed.packages()) install.packages("BiocManager") BiocManager::install("APAlyzer")
或者,它也可以安装如下:
R CMD安装APAlyzer.tar.gz
此外,用户还可以直接从GitHub安装APAlyzer开发版:
BiocManager::安装(“RJWANGbioinfo / APAlyzer”)
安装后,APAlyzer可用于:
库(APAlyzer)
该包读取BAM文件以获得不同基因组区域的读覆盖信息。的示例中指定示例BAM文件的路径TBX20BamSubset(Bindreither 2018)包数据。在本例中,BAM文件对应于鼠标RNA-seq数据(映射到mm9)。
suppressMessages(library(" tbx20bam子集"))suppressMessages(library("Rsamtools")) flsall = getBamFileList() flsall
## SRR316184 /home/biocbuild/bbs-3.17-bioc/R/library/ tbx20bam子集/extdata/SRR316184“SRR316185 ##”/home/biocbuild/bbs-3.17-bioc/R/library/ tbx20bam子集/extdata/SRR316185。“SRR316186 ##”/home/biocbuild/bbs-3.17-bioc/R/library/ tbx20bam子集/extdata/SRR316186。SRR316187 /home/biocbuild/bbs-3.17-bioc/R/library/ tbx20bam子集/extdata/SRR316187“## SRR316188 ##”/home/biocbuild/bbs-3.17-bioc/R/library/ tbx20bam子集/extdata/SRR316188“SRR316189 ##”/home/biocbuild/bbs-3.17-bioc/R/library/ tbx20bam子集/extdata/SRR316189.bam”
我们的包装需要基因组中的PAS引用(包括3 ' utr和内含子)。我们已经预先构建了小鼠基因组(mm9)的参考文件,可以从该文件加载extdata
:
library(repmis) URL="https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/" file="mm9_REF. "RData”source_data (paste0 (URL,文件,“?生= True”))
##从https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/mm9_REF.RData?raw=True下载数据
下载的数据文件的SHA-1哈希值为:## fa117a77976a6931e4755a3182544df1d1de7eb6
## [1] " reftrraw " "dfIPA" " dflle "
这extdata
覆盖3 ' utr APA区域(refUTRraw)、IPA区域(dfIPA)和3 ' -most外显子区域(dfLE)。的refUTRraw
为包含6列3'UTR PASs基因组信息的数据帧:
头(refUTRraw, 2)
## gene_symbol铬链第一最后cdsend ## 1 Xkr4 chr1 - 3204561 3189814 3206103 ## 2 Lypla1 chr1 + 4835237 4836816 4835097
dfIPA
为内含子PASs的8列数据帧;“上游ss”表示距离IPA最近的5 '或3 '拼接点,“下游ss”表示距离IPA最近的3 '拼接点:
头(dfIPA, 2)
## PASid gene_symbol Chrom链Pos上行ss下行ss ## 5 chr4:32818455:+ Mdn1 chr4 + 32818455 32818305 32818889 ## 10 chr4:32837613:+ Mdn1 chr4 + 32837613 32837452 32837887
dfLE
是包含5列3 '最小外显子的数据帧;“LEstart”表示最后3’外显子的开始基因组位置。
头(dfLE, 2)
## gene_symbol铬链LEstart TES ## 1 0610009O20Rik chr18 + 38421534 38425118 ## 2 0610010F05Rik chr11 - 23465136 23462079
除了小鼠mm9之外,我们的套件还有小鼠mm10、人类hg38和人类hg19基因组的预构建版本:
URL = " https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/ "文件= " hg19_REF。RData”source_data (paste0 (URL,文件,“?生= True”))
##从https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/hg19_REF.RData?raw=True下载数据
下载数据文件的## SHA-1哈希值为:## 7ba8e91beba626318e48736692d6442480d1ef06
## [1] "refUTRraw_hg19" "dfIPA_hg19" "dfLE_hg19"
更多的构建前参考可以在参考和测试数据repo中找到:https://github.com/RJWANGbioinfo/PAS_reference_RData_and_testing_data
为了量化PAS的相对表达,我们需要为它们构建参考区域,尽管这可以在以前的版本中单独构建。我们还提供了一个新函数REF4PAS
从APAlyzer 1.2.1开始立即构建这些区域:
refUTRraw=refUTRraw[which(refUTRraw$Chrom=='chr19'),] dfIPAraw=dfIPA[which(dfIPA$Chrom=='chr19'),] dfLEraw= dflle [which(dfIPA$Chrom=='chr19'),] PASREF=REF4PAS(refUTRraw,dfIPAraw,dfLEraw) UTRdbraw=PASREF$UTRdbraw dfIPA=PASREF$dfIPA dflle =PASREF$dfIPA dflle
在这种情况下,UTRdbraw
为3'UTR APA分析的参考区域,而dfIPA
而且dfLE
在内含子APA分析中是必需的。
尽管我们强烈建议用户使用从PolyA_DB生成的引用区域。从APAlyzer 1.2.1开始,我们还提供了一个新的函数,可以帮助用户直接从基因注释GTF文件中建立他们的参考,我们希望这可以帮助到尚未被PolyA_DB覆盖的物种:
##建立参考范围3'UTR PASs在鼠标下载。file(url='ftp://ftp.ensembl.org/pub/release-99/gtf/mus_musculus/Mus_musculus.GRCm38.99.gtf.gz', destfile=' mus_muscle . grcm38.99 .gtf.gz') GTFfile=" mus_muscle . grcm38.99 .gtf.gz" PASREFraw=PAS2GEF(GTFfile) refUTRraw=PASREFraw$refUTRraw dfIPAraw=PASREFraw$dfIPA dfLEraw=PASREFraw$ dfIPA dfLEraw= pasref4pas (refUTRraw,dfIPAraw,dfLEraw)
从APAlyzer 1.9.1开始,可以设置两种注释方法AnnoMethod =
要注释PAS, ' legacy '或' V2 '(默认),' legacy '是以前版本中使用的旧方法,而' V2 '是更新和改进的版本。
为了计算3'UTR APA相对表达量(RE),我们首先需要使用定义aUTR和cUTR的参考区域refUTRraw
.由于示例数据只包含chr19上的映射信息,我们可以只放大到chr19上的参考区域:
refUTRraw = refUTRraw ((refUTRraw铬美元= =“chr19”),]UTRdbraw = REF3UTR (refUTRraw)
的REF3UTR
函数返回每个基因包含aUTR(pPAS到dPAS)和cUTR(cdsend到pPAS)区域的基因组范围:
头(UTRdbraw, 2)
## seqnames ranges strand | gene_symbol gene_name ## | ## 10082 chr19 5492231-5495277 - | 1700020D05Rik 1700020D05Rik__aUTR ## ------- ## seqinfo: 21个来自未指定基因组的序列;## seqnames ranges strand | gene_symbol gene_name ## | ## 100821 chr19 5495277-5502867 - | 1700020D05Rik 1700020D05Rik__cUTR ## ------- # seqinfo: 21个序列来自一个未指定的基因组;没有seqlengths
一旦确定了cUTR和aUTR区域,就可以计算出每个基因的3'UTR APA的REPASEXP_3UTR
:
DFUTRraw=PASEXP_3UTR(UTRdbraw, flsall, Strandtype="forward")
##[1]“SRR316184, Strand: forward, finished“##[1]”SRR316185, Strand: forward, finished“##[1]”SRR316186, Strand: forward, finished“##[1]”SRR316187, Strand: forward, finished“##[1]”SRR316188, Strand: forward, finished“##[1]”SRR316189, Strand: forward, finished“##[1]”SRR316189, Strand: forward, finished
的PASEXP_3UTR
3UTR需要两个输入:1)aUTR和cUTR参考区域,2)BAM文件路径。除了输入之外,还可以使用定义序列的链Strandtype
.详细的使用方法还可以通过命令获取PASEXP_3UTR ?
.输出数据帧包含每个基因的reads count(以aUTR或cUTR为单位)、RPKM(以aUTR或cUTR为单位)和RE (log2(aUTR/cUTR)):
头(DFUTRraw, 2)
# # 1 # # gene_symbol SRR316184_areads SRR316184_aRPKM SRR316184_creads 1700020 d05rik 0 0 31 # # 2 1810009 a15rik 0 0 0 # # SRR316184_cRPKM SRR316184_3UTR_RE SRR316185_areads SRR316185_aRPKM # 118.4358 # 1负0 0 # # 2 0.0000南0 0 # # SRR316185_creads SRR316185_cRPKM SRR316185_3UTR_RE SRR316186_areads 20 74.34672负0 # # 1 # # 2 0 0.00000南0 # # SRR316186_aRPKM SRR316186_creads SRR316186_cRPKM SRR316186_3UTR_RE # # 1 0 23 87.90994负无穷到# # 2 0 0 0.00000南# # SRR316187_areads SRR316187_aRPKMSRR316187_creads SRR316187_cRPKM 33 # # 1 0 0 0.00000 88.85001 # # 2 0 0 0 # # SRR316187_3UTR_RE SRR316188_areads SRR316188_aRPKM SRR316188_creads 33 # # 1负0 0 # # 2南0 0 0 # # SRR316188_cRPKM SRR316188_3UTR_RE SRR316189_areads SRR316189_aRPKM # 77.68085 # 1负0 0 # # 2 0.00000南0 0 # # SRR316189_creads SRR316189_cRPKM SRR316189_3UTR_RE # 31.76981 # 1 11负无穷到# # 2 0 0.00000南
IPA的分析需要两个基因组区域:IPA区域和3 ' -most外显子。如上所述,小鼠和人类基因组中的这些区域已经预先构建在包中:
#鼠标(mm9): URL="https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/" file="mm9_REF. "RData”source_data (paste0 (URL,文件,“?生= True”))
##从https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/mm9_REF.RData?raw=True下载数据
下载的数据文件的SHA-1哈希值为:## fa117a77976a6931e4755a3182544df1d1de7eb6
## [1] " reftrraw " "dfIPA" " dflle "
#human(hg19): URL="https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/" file="hg19_REF. "RData”source_data (paste0 (URL,文件,“?生= True”))
##从https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/hg19_REF.RData?raw=True下载数据
下载数据文件的## SHA-1哈希值为:## 7ba8e91beba626318e48736692d6442480d1ef06
## [1] "refUTRraw_hg19" "dfIPA_hg19" "dfLE_hg19"
与3'UTR APA类似,IPAs的RE可由PASEXP_IPA计算:PASEXP_IPA
:
dfIPA=dfIPA[which(dfIPA$Chrom=='chr19'),] dfIPA=dfIPA[which(dfIPA$Chrom=='chr19'),] IPA_OUTraw=PASEXP_IPA(dfIPA, dfIPA, flsall, Strandtype="forward", nts=1)
注意,作为IPA的一个特定特性,可以使用' nts= '(传递给Rsubread:: featurerts的参数,检查)设置更多线程? Rsubread:: featureCounts
以提高计算速度。详细用法可通过命令获取PASEXP_IPA ?
.
输出数据帧包含IPA上游(a)、IPA下游(b)和3 ' -most外显子区域(c)的读计数和读密度。IPA的RE计算为log2((a - b)/c)。
头(IPA_OUTraw, 2)
# # 1 # # gene_symbol IPAID PASid 9130011 e15rik chr19:45894071: -9130011 e15rik chr19:45894071: - # # 2 9130011 e15rik chr19:45952090: -9130011 e15rik chr19:45952090: - - - - - - # # SRR316184_IPA_UPreads SRR316184_IPA_UPRPK SRR316184_IPA_DNreads 1 1.445087 0 # # 2 # # 104 12.453598 26 # # SRR316184_IPA_DNRPK SRR316184_LEreads SRR316184_LERPK SRR316184_IPA_RE # # 96 0.0000000 96 59.47955 - -5.363166 # # 2 0.8276828 59.47955 - -2.355049 # # SRR316185_IPA_UPreads SRR316185_IPA_UPRPK SRR316185_IPA_DNreads 0.00000 - 1 # # # # 1 0212114.4892820 ## SRR316185_IPA_DNRPK SRR316185_LEreads SRR316185_LERPK SRR316185_IPA_RE ## 1 1.6611296 96 59.47955 0.000000 ## 2 0.6366791 96 59.47955 -2.102237 ## SRR316186_IPA_UPreads SRR316186_IPA_UPRPK SRR316186_IPA_DNreads ## 1 0 0.00000 0 ## 2 108 12.93258 13 ## SRR316186_IPA_DNRPK SRR316186_LEreads SRR316186_LERPK SRR316186_IPA_RE ## 1 0.0000000 69 42.75093 0.000000 ## 2 0.4138414 69 42.75093 -1.771866 ## SRR316187_IPA_UPreads SRR316187_IPA_UPRPK SRR316187_IPA_DNreads ## 1 0 0.00000 0 ## 2 199 23.82948 22 ## SRR316187_IPA_DNRPK SRR316187_LEreads SRR316187_LERPK SRR316187_IPA_RE ## 1 0.000000 40 24.78315 0.00000000 ## 2 0.700347 40 24.78315 -0.09964814 ## SRR316188_IPA_UPreads SRR316188_IPA_UPRPK SRR316188_IPA_DNreads ## 1 1 1.445087 0 ## 2 207 24.787451 15 ## SRR316188_IPA_DNRPK SRR316188_LEreads SRR316188_LERPK SRR316188_IPA_RE ## 1 0.0000000 55 34.07683 -4.5595631 ## 2 0.4775093 55 34.07683 -0.4872446 ## SRR316189_IPA_UPreads SRR316189_IPA_UPRPK SRR316189_IPA_DNreads ## 1 1 1.445087 0 ## 2 226 27.062627 15 ## SRR316189_IPA_DNRPK SRR316189_LEreads SRR316189_LERPK SRR316189_IPA_RE ## 1 0.0000000 46 28.50062 -4.3017653 ## 2 0.4775093 46 28.50062 -0.1003744
一旦获得了每个样本的读覆盖率信息,就可以比较两个不同组之间的APA调控差异。在本分析中,有两种类型的实验设计:1)无重复;2)重复。根据设计生成样例表:
#使用复制sampleTable1 = data.frame(samplename = c(names(flsall)), condition = c(rep("NT",3),rep("KD",3)))
## samplename条件## 1 SRR316184 NT ## 2 SRR316185 NT ## 3 SRR316186 NT ## 4 SRR316187 KD ## 5 SRR316188 KD ## 6 SRR316189 KD
= data.frame(samplename = c("SRR316184","SRR316187"), condition = c("NT","KD")
## SRR316184 NT ## 2 SRR316187 KD
为分析无重复的样本(例中为KD组和NT组)之间的3'UTR APA,sampleTable2
使用。这里使用的函数被调用APAdiff
(详细信息可通过命令获取APAdiff ?
).它将首先通过样本表来确定它是复制设计还是非复制设计。然后进行APA同情。
test_3utsing =APAdiff(sampleTable2,DFUTRraw, conKET='NT', trtKEY='KD', PAS='3UTR', CUTreads=0, p_adjust_methods="fdr")
的APAdiff
函数需要两个输入:1)定义样本分组/条件的样本表,2)读取autr和cutr的覆盖率信息,可以通过PASEXP_3UTR
从前面的步骤。组名,即治疗或控制,可以定义为btrtKEY =
而且conKET =
;所分析的PAS类型应定义为不是=
;用于aUTR和cUTR的读截止由CUTreads =
默认值为0;定义了p值校正的方法p_adjust_methods =
默认值为' fdr '。在非复制设计中,APA模式将在两个样本之间进行比较,输出将显示在一个数据帧中:
头(test_3UTRsing, 2)
## gene_symbol RED pvalue p_adj APAreg ## 3 1810055G02Rik -0.1195816 1.0000000 1.0000000 NC ## 4 2700081O15Rik 0.3862662 0.3292784 0.8007581 NC
表(test_3UTRsing APAreg美元)
## ## dn nc up ## 31 246 8 .
输出包含4列:“基因符号”描述基因信息;RED为两组间的相对表达差异;“pvalue”是基于Fisher精确检验的统计显著性;' p_adj '为FDR调节的pvalue, ' APAreg '为基因中3'UTR APA调节模式。我们在“APAreg”中定义了3种类型,“UP”表示治疗组的aUTR丰度(在本例中为“KD”)比对照组(在本例中为“NT”)至少高5%,且“pvalue”<0.05;“DN”表示处理组的aUTR丰度比对照组低5%,p值<0.05;' NC '是剩下的基因。对于3'UTR大小变化,' UP '表示3'UTR变长,' DN ' 3'UTR变短。
对于重复设计,我们使用t检验进行显著性分析。然而,其他基于负二项数据分布的工具,如
DEXSeq(安德斯、雷耶斯和W. 2012)也可以用。
使用多重重复设计分析KD和NT组之间的3'UTR APA test_3UTRmuti=APAdiff(sampleTable1, DFUTRraw, conKET='NT', trtKEY='KD', PAS='3UTR', CUTreads=0, p_adjust_methods="fdr", MultiTest='unpaired t-test') head(test_3UTRmuti,2)
## gene_symbol RED pvalue p_adj APAreg ## 3 1810055G02Rik -0.7631689 0.08590526 0.4961374 NC ## 4 2700081O15Rik 0.1872116 0.07691742 0.4961374 NC
表(test_3UTRmuti APAreg美元)
## ## dn nc up ## 24 226
在复制设计中,附加参数MultiTest
可用于设置统计方法。在当前版本中,有3种方法可以设置:“unpaired t-test”(默认),“paired t-test”,“ANOVA”。运行之后APAdiff
,会生成几列:‘RED’是两组平均相对表达式的差值;' pvalue '是通过定义的方法计算的p值MultiTest
.“APAreg”是预测的APA调控方向;' UP '定义为' RED ' >0且' pvalue ' <0.05;而' DN '是相反的;' NC '是剩下的基因。
IPA比较与APA使用的3'UTR相似APAdiff
(1)使用IPA表达式作为输入,(2)需要将' PAS= '定义为' IPA ',(3)对每个IPA进行分析。值得注意的是,IPA的调控方向与3'UTR APA的调控方向相似。这意味着“UP”被定义为IPA的上调(RED > 0);“DN”是反义词;' NC '是剩下的基因。
无重复的KD组和NT组之间的IPA分析如下:
test_IPAsing=APAdiff(sampleTable2, IPA_OUTraw, conKET='NT', trtKEY='KD', PAS='IPA', CUTreads=0, p_adjust_methods="fdr") head(test_IPAsing,2)
## gene_symbol PASid RED pvalue p_adj APAreg ## 2 9130011E15Rik chr19:45952090:- 2.255401 1.790010e-12 3.615821e-10 UP ## 5 Ablim1 chr19:57151655:- 0.626637 5.392007e-01 1.000000e+00 NC
使用复制数据分析KD组和NT组之间的IPA如下:
test_IPAmuti=APAdiff(sampleTable1, IPA_OUTraw, conKET='NT', trtKEY='KD', PAS='IPA', CUTreads=0, p_adjust_methods="fdr", MultiTest='unpaired t-test') head(test_IPAmuti,2)
## gene_symbol PASid RED pvalue p_adj APAreg ## 2 9130011E15Rik chr19:45952090:- 1.84729507 0.001294432 0.2808917 UP ## 5 Ablim1 chr19:57151655:- -0.09466715 0.900027947 0.9480877 NC
从APAlyzer 1.2.1开始,我们提供了两个新的函数APAVolcano
而且APABox
供用户使用火山图和箱形图绘制他们的RED结果。在火山图中,用户还可以标记使用最多的基因顶级=
或一组特定的基因使用markergenes =
,例如:
apolcano (test_3utsing, PAS='3UTR', Pcol = "pvalue", top=5, main='3UTR APA')
在箱形图中,红色位于' UP '、' DN '和' NC '基因上:
APABox(test_3UTRsing, xlab = "APAreg", ylab = "RED", plot_title = NULL)
除了火山图和箱形图外,APA比较结果还可以用箱形图、小提琴图或CDF曲线绘制。对于前面的3'UTR APA和IPA比较输出,首先需要构建绘图数据帧:
test_3UTRmuti APA =“3 'utr”test_IPAmuti APA美元=“音标”dfplot = rbind (test_3UTRmuti [c(“红”,APA)], test_IPAmuti [c(“红”,APA)])
制作小提琴图和CDF曲线ggplot2:
库(ggplot2)
###小提琴ggplot(dfplot, aes(x = APA, y = RED)) + geom_violin(trim = FALSE) + geom_boxplot(width = 0.2)+ theme_bw() + geom_hline(yintercept=0, linetype="虚线",color ="红色")
###CDF ggplot(dfplot, aes(x = RED, color = APA)) + stat_ecdf(geom =" step") + ylab("累积分数")+ geom_vline(xintercept=0, linetype="虚线",color ="灰色")+ theme_bw() + geom_hline(yintercept=0.5, linetype="虚线",color ="灰色")
APA经常参与基因表达调控。为了比较不同样本中的基因表达与APA,我们的包提供了一个简单的函数,使用映射到编码序列的RNA-seq读取来评估表达变化。
suppressMessages(library("GenomicFeatures")) suppressMessages(library("org.Mm.eg.db")) extpath = system。file("extdata", "mm9.chr19.refGene.R.DB", package="APAlyzer") txdb=loadDb(extpath, packageName='GenomicFeatures') IDDB = org.Mm.eg.db CDSdbraw=REFCDS(txdb,IDDB)
## 'select()'返回键和列之间的many:1映射
DFGENEraw=GENEXP_CDS(CDSdbraw, flsall, Strandtype="forward")
##[1]“SRR316184, Strand: forward, finished“##[1]”SRR316185, Strand: forward, finished“##[1]”SRR316186, Strand: forward, finished“##[1]”SRR316187, Strand: forward, finished“##[1]”SRR316188, Strand: forward, finished“##[1]”SRR316189, Strand: forward, finished“##[1]”SRR316189, Strand: forward, finished
从APAlyzer 1.5.5开始,我们提供了一个名为ThreeMostPairBam
供用户从配对端的bam文件中提取三个质数对齐,并将其保存到新的bam文件中。例如:
##提取一个成对端## bam文件的3 '大部分对齐,并保存到一个新的bam文件Bamfile='/path/to/inputdir/input。bam' Outdir='/path/to/ Outdir /' StrandType="forward-reverse" ## "forward-reverse",或"reverse-forward"或"NONE" ThreeMostPairBam (BamfilePath=Bamfile, OutDirPath=Outdir, StrandType='forward-reverse')
输出bamfile(一个名为*.3most的bam文件。Bam位于Outdir
)可作为输入文件PASEXP_3UTR
.将此bam文件用于PASEXP_IPA
,用户需要设置SeqType
到“ThreeMostPairEnd”,例如:
ThreemostBamfile = " test.3most。bam" IPA_OUTraw=PASEXP_IPA(dfIPA, dfLE, ThreemostBamfile, Strandtype="forward", SeqType="ThreeMostPairEnd")
为了使用我们的软件包提供APA分析的完整教程,我们现在已经准备了一个测试数据集,通过向下采样小鼠心脏(GSM900193)和睾丸(GSM900199)的RNA-Seq数据:
样品标识 | SRRID | 样品名称 | 下采样读数 |
---|---|---|---|
GSM900199 | SRR453175 | Heart_Rep1 | 500万年 |
GSM900199 | SRR453174 | Heart_Rep2 | 500万年 |
GSM900199 | SRR453173 | Heart_Rep3 | 500万年 |
GSM900199 | SRR453172 | Heart_Rep4 | 500万年 |
GSM900193 | SRR453143 | Testis_rep1 | 500万年 |
GSM900193 | SRR453142 | Testis_rep2 | 500万年 |
GSM900193 | SRR453141 | Testis_rep3 | 500万年 |
GSM900193 | SRR453140 | Testis_rep4 | 500万年 |
download_testbam () flsall < - dir (getwd(),“本”)flsall < -paste0 (getwd(),“/”,flsall)名称(flsall) < -gsub(‘本’,”迪尔(getwd(),“本”))
library(repmis) URL="https://github.com/RJWANGbioinfo/PAS_reference_RData/blob/master/" file="mm9_REF. "RData”source_data (paste0 (URL,文件,“?生= True”))PASREF=REF4PAS(refUTRraw,dfIPA,dfLE) UTRdbraw=PASREF$UTRdbraw dfIPA=PASREF$dfIPA dfLE=PASREF$dfLE
UTR_APA_OUT=PASEXP_3UTR(UTRdbraw, flsall, Strandtype="invert") IPA_OUT=PASEXP_IPA(dfIPA, dflle, flsall, Strandtype="invert", nts=1)
############# 3utr APA ################# sampleTable = data.frame(samplename = c('Heart_rep1', 'Heart_rep2', 'Heart_rep3', 'Heart_rep4', 'Testis_rep1', 'Testis_rep2', 'Testis_rep3', 'Testis_rep4'), condition = c(rep("Heart",4), rep("Testis",4))) test_3UTRAPA=APAdiff(sampleTable,UTR_APA_OUT, conKET='Heart', trtKEY='Testis', PAS=' 3utr ', CUTreads=5)
表(test_3UTRAPA APAreg美元)
## ## dn nc up ## 490 719 80
apvolcano (test_3UTRAPA, PAS='3UTR', Pcol = "pvalue", plot_title='3UTR APA')
APABox(test_3UTRAPA, xlab = "APAreg", ylab = "RED", plot_title = NULL)
############# 异丙醇 ################# test_IPA = APAdiff (sampleTable IPA_OUT conKET =‘心’,trtKEY =“睾丸”,不等于“音标”,CUTreads = 5)
表(test_IPA APAreg美元)
## ## dn nc up ## 125 924 312
apvolcano (test_IPA, PAS='IPA', Pcol = "pvalue", plot_title='IPA')
APABox(test_IPA, xlab = "APAreg", ylab = "RED", plot_title = NULL)
如何生成BAM文件列表进行分析?
包含BAM文件名和文件路径的BAM文件列表。假设所有BAM文件都存储在bamdir中,那么BAM文件列表可以通过以下方式获得:
Flsall =dir(bamdir,".bam") Flsall =paste0(bamdir, Flsall) names(Flsall)=dir(bamdir,".bam")
为什么我得到错误消息时,我试图获得txdb使用makeTxDbFromUCSC?
您可以尝试升级您的Bioconductor,或使用GTF加载基因组注释,或使用' . r.b b '文件加载预构建基因组注释,例如mm9. refgene . r.b b。
会话信息记录了当前文档生成过程中使用的所有包版本。
sessionInfo ()
## R正在开发中(不稳定)(2022-10-25 r83175) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:[4] Biostrings_2.67.0 XVector_0.39.0 genomicranges_1.1.1.0 ## [16] GenomeInfoDb_1.35.0 IRanges_2.33.0 S4Vectors_0.37.0 ## [16] BiocGenerics_0.45.0 APAlyzer_1.13.0 BiocStyle_2.27.0 ## ##通过命名空间加载(并且没有附加):# # # # [1] DBI_1.1.3 bitops_1.0-7 [3] biomaRt_2.55.0 rlang_1.0.6 # # [5] magrittr_2.0.3 matrixStats_0.62.0 # # [7] compiler_4.3.0 RSQLite_2.2.18 # # [9] png_0.1-7 vctrs_0.5.0 # # [11] stringr_1.4.1 pkgconfig_2.0.3 # # [13] crayon_1.5.2 Rsubread_2.13.0 # # [15] fastmap_1.1.0 magick_2.7.3 # # [17] dbplyr_2.2.1 ellipsis_0.3.2 # # [19] labeling_0.4.2 utf8_1.2.2 # # [21] rmarkdown_2.17 purrr_0.3.5 # # [23] bit_4.0.4 xfun_0.34 # # [25] zlibbioc_1.45.0 cachem_1.0.6 # # [27] jsonlite_1.8.3 progress_1.2.2 # # [29]blob_1.2.3 highr_0.9 # # [31] DelayedArray_0.25.0 BiocParallel_1.33.0 # # [33] HybridMTest_1.43.0 parallel_4.3.0 # # [35] prettyunits_1.1.1 VariantAnnotation_1.45.0 # # [37] R6_2.5.1 bslib_0.4.0 # # [39] stringi_1.7.8 RColorBrewer_1.1-3 # # [41] rtracklayer_1.59.0 genefilter_1.81.0 # # [43] jquerylib_0.1.4 Rcpp_1.0.9 # # [45] bookdown_0.29 assertthat_0.2.1 # # [47] SummarizedExperiment_1.29.0 R.utils_2.12.1 # # [49] R.cache_0.16.0 Matrix_1.5-1 # # [51] splines_4.3.0 tidyselect_1.2.0 # # [53] yaml_2.3.6codetools_0.2-18 # # [55] curl_4.3.3 plyr_1.8.7 # # [57] lattice_0.20-45 tibble_3.1.8 # # [59] withr_2.5.0 KEGGREST_1.39.0 # # [61] evaluate_0.17 survival_3.4-0 # # [63] BiocFileCache_2.7.0 xml2_1.3.3 # # [65] pillar_1.8.1 BiocManager_1.30.19 # # [67] filelock_1.0.2 MatrixGenerics_1.11.0 # # [69] generics_0.1.3 rcurl_1.98 - 1.9 # # [71] hms_1.1.2 munsell_0.5.0 # # [73] scales_1.2.1 xtable_1.8-4 # # [75] glue_1.6.2 tools_4.3.0 # # [77] BiocIO_1.9.0 data.table_1.14.4 # # [79] BSgenome_1.67.0 annotate_1.77.0 # #[81] locfit_1. 1.1 - 2.21 genome alignments_1.35.0 ## [83] XML_3.99-0.12 grid_4.3.0 ## [85] tidyr_1.2.1 colorspace_2.0-3 ## [87] GenomeInfoDbData_1.2.9 restfulr_0.0.15 ## [89] cli_3.4.1 rappdirs_0.3.3 ## [91] fansi_1.0.3 dplyr_1.0.10 ## [93] gtable_0.3.1 r.d osss3_1 .8.2 ## [95] DESeq2_1.39.0 sass_0.4.2 ## [97] digest_0.6.30 ggrepel_0.9.1 ## [99] farver_2.1.1 geneplotter_1.77.0 ## [101] rjson_0.2.21 R.oo_1.25.0 ## [103] memoise_2.0.1 htmltools_0.5.3 ## [105] lifecycle_1.0.3 httr_1.4.4 ## [107]bit64_4.0.5
我们感谢滨天实验室成员的有益讨论和包测试。
安德斯,S., A.雷耶斯,Huber W. 2012。从Rna-Seq数据中检测外显子的差异使用基因组研究22日:4025。https://doi.org/10.1101/gr.133744.111.
宾德莱瑟,D. 2018。tbx20bam子集:来自“Tbx20”实验的Bam文件子集.
王锐,R. Nambiar,郑迪,田波。2017。“PolyA_DB 3在多个基因组中通过深度测序鉴定的切割和多聚腺苷酸位点目录。”核酸研究46 (d1): d315-d319。https://doi.org/10.1093/nar/gkx1000.
王锐,郑德栋,田波。2018。哺乳动物基因中保守的卵裂和多聚腺苷酸事件概要。基因组研究28(10): 1427-41。https://doi.org/10.1101/gr.237826.118.