介绍wiggleplotr

wiggleplotr是一个工具想象RNA-seq读超龄跨带注释的外显子。的一个关键特性wiggleplotr是可以重新调节基因的内含子固定长度,使其更容易看到读覆盖相邻的外显子之间的差异,否则可以太远。自wiggleplotr以标准大佬文件作为输入,它也可以用来想象从其他sequencing-based读取超龄ATAC-seq和ChIP-seq等化验。

# #可视化文本注释第一,plotTranscripts函数允许您想象的structucte成绩单的基因(或多基因)。需要以下三个输入,但只有第一个是要求:

在你开始之前,wiggleplotr包附带的例子注释的9个蛋白质编码转录NCOA7基因预装。请见下文,学习如何从自己运用或下载这些注释如何自动提取它们的EnsDb和TxDb对象。这是注释是什么样子:

您可能已经注意到,自从NCOA7基因内含子相对较长,它可以很难看到所有的外显子的位置。关注外显子,我们可以重新调节所有内含子固定长度(50个基点默认情况下):

如果你构建你自己的文本注释,您只需要指定外显子农庄组织列表的代码工作。在这种情况下,列表的名称将被用作记录标签上的阴谋。

# #想象RNA-seq读报道我们使用上面的NCOA7示例,因为我们最近发现这个基因经历替代促进剂使用在人类巨噬细胞在脂多糖(LPS)刺激¹。我们现在展示plotCoverage函数可以用来想象RNA-seq读一个基因外显子川流不息的报道。另外的外显子,信用违约互换和transcript_annotationsparamteres所需的plotTranscripts,plotCoverage还需要一个track_data数据帧包含RNA-seq样本读元数据以及路径覆盖率数据位格式。

首先,您需要创建一个数据帧包含示例的元数据。在我们的例子中我们有四个样品,两个天真的条件和两个LPS刺激后:

最后,我们需要添加track_id和colour_group列定义样本所属的跟踪和他们的颜色应该是什么。为简单起见,我们首先设置这两个值等于实验条件:

默认情况下,plotCoverage情节的平均阅读覆盖所有样品在同一颜色组。然而,也可以通过设置覆盖所有的个人样本mean_only = FALSE和α< 1。

很明显从两块短记录跳过前11基因的外显子只是LPS刺激后表示。

覆盖多个条件

最后,我们可以在不同的颜色覆盖这两个条件通过将所有的样本分配给一个轨道。这种方法我们可以想象eQTLs和拼接法非常有用。设置coverage_type = "线"让我们看到这两个信号即使彼此重叠:

track_data =dplyr::变异(sample_datatrack_id =“RNA-seq”,colour_group =条件)plotCoverage(ncoa7_exons [selected_transcripts], ncoa7_cdss [selected_transcripts],ncoa7_metadata track_data,身高=c(2,1),fill_palette =getGenotypePalette(),coverage_type =“行”)

# #警告:删除2行(s)含有缺失值(geom_path)。

不幸的是,目前不可能自动添加传说读报道情节。这是因为plotTranscripts使用cowplot: plot_grid函数一致读覆盖率和情节和文本注释plot_grid不支持的传说。

策划其他类型的数据

虽然wiggleplotr最初用RNA-seq数据,它同样可以想象任何其他测序数据,可以概括为已读覆盖率大佬格式(ATAC-seq, DNAse-seq ChIP-seq)。所有您需要做的就是指定您自己的外显子,信用违约互换,transcript_annotations和track_data参数。此外,设置connect_exons = FALSE和transcript_label = FALSE使它容易阴谋其他类型的基因组注释。

track_data =dplyr::变异(sample_datatrack_id =“RNA-seq”,colour_group =条件)plotCoverage(ncoa7_exons [selected_transcripts], ncoa7_cdss [selected_transcripts],ncoa7_metadata track_data,身高=c(2,1),fill_palette =getGenotypePalette(),coverage_type =“行”,connect_exons =假,transcript_label =假,rescale_introns =假)

从运用自动提取文本注释和UCSC的注释对象

除了指定您自己的文本注释,wiggleplotr还提供了四个额外的包装器函数,可以直接提取文本注释ensembldb和TxDb(加州大学)对象。为ensembldb,你可以使用plotTranscriptsFromEnsembldb和plotCoverageFromEnsembldb功能:

图书馆(“ensembldb”)图书馆(“EnsDb.Hsapiens.v86”)plotTranscriptsFromEnsembldb(EnsDb.Hsapiens.v86gene_names =“NCOA7”,transcript_ids =c(“ENST00000438495”,“ENST00000392477”))

TxDb UCSC的注释文字记录的对象,您可以使用相应的plotTranscriptsFromUCSC和plotCoverageFromUCSC功能:

#负载OrgDb UCSC的基因注释和TxDb对象需要(“org.Hs.eg.db”)需要(“TxDb.Hsapiens.UCSC.hg38.knownGene”)plotTranscriptsFromUCSC(orgdb =org.Hs.eg.db,txdb =TxDb.Hsapiens.UCSC.hg38.knownGene,gene_names =“NCOA7”,transcript_ids =c(“ENST00000438495.6”,“ENST00000368357.7”))

# #的选择()返回1:许多钥匙和列之间的映射

下载文本注释的运用

最简单的方法来访问参考文本注释R是直接从运用下载使用biomaRtR包。

下载记录元数据

首先,我们想下载记录元数据,比如记录所属的基因,他们的名字是什么。我们可以使用biomaRt包。首先,让我们定义哪些集市和我们想要使用数据集。

ensembl_mart =useMart(“ENSEMBL_MART_ENSEMBL”,主机=“jan2020.archive.ensembl.org”)

# #警告:运用将很快执行使用https。# #确保主机的参数包括“https://”

ensembl_dataset =useDataset(“hsapiens_gene_ensembl”,集市=ensembl_mart)ensembl_dataset

# #对象的类“集市”:# #使用ENSEMBL_MART_ENSEMBL BioMart数据库使用hsapiens_gene_ensembl数据集# #

的主机有助于确保我们从特定的运用版本得到注释。例如,运用78年correseponds主机= " dec2014.archive.ensembl.org "。您可以使用运用档案网站检查主机名对应于所需运用的版本。用具体的运用版本的更多信息biomaRt可以找到的吗biomaRt装饰图案。

我们可以看到的所有可用属性listAttributes命令。

属性=listAttributes(ensembl_dataset)头(属性)

页# # 1 # #名称描述ensembl_gene_id基因稳定的ID feature_page # # 2 ensembl_gene_id_version稳定稳定版本feature_page # # 3 ensembl_transcript_id记录ID feature_page # # 4 ensembl_transcript_id_version记录ID稳定版本feature_page # # 5 ensembl_peptide_id蛋白质稳定的ID feature_page # # 6 ensembl_peptide_id_version feature_page ID稳定版本

现在,让我们选择基因id、名称、记录的id和链biomart并下载相应的列。

selected_attributes =c(“ensembl_transcript_id”,“ensembl_gene_id”,“external_gene_name”,“链”,“gene_biotype”,“transcript_biotype”)data =getBM(属性=selected_attributes,集市=ensembl_dataset)头(数据)

# # 1 # # ensembl_transcript_id ensembl_gene_id external_gene_name链ENST00000387314 ENSG00000210049 MT-TF 1 # # 2 ENST00000389680 ENSG00000211459 MT-RNR1 1 # # 3 ENST00000387342 ENSG00000210077 MT-TV 1 # # 4 ENST00000387347 ENSG00000210082 MT-RNR2 1 # # 5 ENST00000386347 ENSG00000209082 MT-TL1 1 # # 6 ENST00000361390 ENSG00000198888 MT-ND1 1 # # gene_biotype transcript_biotype # # 1 Mt_tRNA Mt_tRNA # # 2 Mt_rRNA Mt_rRNA # # 3 Mt_tRNA Mt_tRNA # # 4 Mt_rRNA Mt_rRNA # # 5 Mt_tRNA Mt_tRNA # # 6 protein_coding protein_coding

最后,我们需要重命名列

data =dplyr::重命名(数据、transcript_id =ensembl_transcript_id,gene_id =ensembl_gene_id,gene_name =external_gene_name)头(数据)

# # 1 # # transcript_id gene_id gene_name链gene_biotype ENST00000387314 ENSG00000210049 MT-TF 1 Mt_tRNA # # 2 ENST00000389680 ENSG00000211459 MT-RNR1 1 Mt_rRNA # # 3 ENST00000387342 ENSG00000210077 MT-TV 1 Mt_tRNA # # 4 ENST00000387347 ENSG00000210082 MT-RNR2 1 Mt_rRNA # # 5 ENST00000386347 ENSG00000209082 MT-TL1 1 Mt_tRNA # # 6 ENST00000361390 ENSG00000198888 MT-ND1 1 protein_coding # # Mt_tRNA transcript_biotype # # 1 # # 2 Mt_rRNA # # 3 Mt_tRNA # # 4 Mt_rRNA # # 5 Mt_tRNA # # 6 protein_coding

现在我们可以将元数据保存到一个文件,以避免下载每次我们需要使用它。

temporary_file =tempfile(模式=“文件”,tmpdir =tempdir(),fileext =“.rds”)saveRDS(数据、temporary_file)

下次我们需要访问元数据,我们可以直接从磁盘加载它。

transcript_metadata =readRDS(temporary_file)头(transcript_metadata)

# # 1 # # transcript_id gene_id gene_name链gene_biotype ENST00000387314 ENSG00000210049 MT-TF 1 Mt_tRNA # # 2 ENST00000389680 ENSG00000211459 MT-RNR1 1 Mt_rRNA # # 3 ENST00000387342 ENSG00000210077 MT-TV 1 Mt_tRNA # # 4 ENST00000387347 ENSG00000210082 MT-RNR2 1 Mt_rRNA # # 5 ENST00000386347 ENSG00000209082 MT-TL1 1 Mt_tRNA # # 6 ENST00000361390 ENSG00000198888 MT-ND1 1 protein_coding # # Mt_tRNA transcript_biotype # # 1 # # 2 Mt_rRNA # # 3 Mt_tRNA # # 4 Mt_rRNA # # 5 Mt_tRNA # # 6 protein_coding

下载完整的记录数据库的运用

然而,仅仅记录元数据并不足够使用wiggleplotr,我们还需要所有外显子的坐标。我们可以使用GenomicFeatures包。首先,我们使用makeTxDbFromBiomart函数对应的完整的记录数据库下载到sepcifc运用版本,在78年这种情况下运用。请注意,由于数据库是相当大的,这可能至少需要几分钟。

txdb =makeTxDbFromBiomart(biomart =“ENSEMBL_MART_ENSEMBL”,数据集=“hsapiens_gene_ensembl”,主机=“jan2020.archive.ensembl.org”)

我们可以将数据库保存到磁盘,以避免下载一遍每次我们想使用它。

txdb_file =tempfile(模式=“文件”,tmpdir =tempdir(),fileext =“.rds”)saveDb(txdb txdb_file)

我们可以从磁盘加载使用loadDb函数。

txdb =loadDb(txdb_file)

我们可以提取外显子和编码序列(CDS)坐标带注释的记录从数据库中。以下命令将生成的列表农庄对象,每个元素包含一个外显子和编码序列的成绩单。

外显子=exonsBy(txdb通过=“tx”,use.names =真正的)信用违约掉期=cdsBy(txdb通过=“tx”,use.names =真正的)

最后,我们使用新下载的注释来想象所有蛋白质的结构编码NCOA7的成绩单。

selected_transcripts =transcript_metadata% > %dplyr::过滤器(gene_name= =“NCOA7”,transcript_biotype= =“protein_coding”)tx_ids =selected_transcripts美元transcript_idplotTranscripts(外显子[tx_ids], cds [tx_ids],transcript_metadata,rescale_introns =真正的)

Kaur Alasoo

2022-04-26