加载SRA和用户提供的RNA-seq数据

努诺·Saraiva-Agostinho

2020-01-30


psichomics是一个交互式R包的综合分析替代剪接和基因表达基于癌症基因组图谱(TCGA)(包含34种肿瘤类型的相关分子数据)基因型-组织表达(GTEx)项目(包含多个正常人体组织的数据)序列读归档以及用户提供的数据。

下面的教程介绍了加载自定义RNA-seq数据所需的步骤:

  1. 检索FASTQ文件和与样本相关的信息序列读存档(SRA)(如果你已经有自己的FASTQ样本,这是可选的);
  2. Map RNA-seq从FASTQ文件中读取参照基因组明星,一个拼接感知对齐器;
  3. 合并和准备这样的对齐器的输出,以正确地解释灵合;
  4. 将数据加载到灵能芯片中。

从SRA下载数据(可选)

SRA是一个生物序列数据存储库,存储了许多已发表文章的数据。SRA数据可能有助于利用公开数据回答紧迫的生物学问题。

最新版本的灵能术支持自动下载SRA数据recount2,一个为数千个SRA项目提供预处理数据的资源(包括基因读取计数、剪接结量化和样本元数据)。首先检查您感兴趣的项目是否无法通过此资源获得,从而更容易分析您感兴趣的样本的基因表达和替代剪接。

SRA的数据可使用fastq-dump命令从sra-tools.例如,从SRP126561项目中,我们可以做以下工作:

#列出SRA样本样本=(SRR6368612 SRR6368613 SRR6368614 SRR6368615 SRR6368616 SRR6368617) #下载每个样本使用fastq-dump每个在${samples};fastq-dump——gzip——split-3 ${each}做了吗

上一个命令中使用的参数:

与样本相关的数据也可从运行选择器页面。点击RunInfo表下载所有示例的整个元数据表。

对齐RNA-seq数据来量化剪接连接

每个可选剪接事件的量化是基于支持包含异构体的结读的比例,称为百分比剪接或PSI(王et al。, 2008)

为了估计每个剪接事件的这个值,需要对对齐到剪接结的RNA-Seq读取进行替代剪接注释和量化(结量化)。虽然包提供了可选的剪接注释,但需要从用户提供的数据中准备连接量化,方法是将来自FASTQ文件的RNA-seq读取与参考基因组对齐。由于需要使用连接读取来量化可选拼接,因此将使用一个感知拼接的对齐器。psichomics目前支持STAR输出。

明星

在将FASTQ样本与参考基因组进行比对之前,需要准备一个基因组索引。

首先下载一个全基因组的FASTA文件和一个带有注释的转录本的GTF文件。要运行以下示例,请下载人类FASTA和GTF文件(hg19汇编)

mkdir hg19_STAR STAR——runThreadN 4 \——runMode genomeGenerate \——genomeDir hg19_STAR \——genomeFastaFiles /path/to/hg19. mkdir hg19_STAR STAR——runThreadN 4 \——runMode genomeGenerate \——genomeDir hg19_STAR \——genome efastafiles /path/to/hg19. mkdirfa \——sjdbGTFfile /path/to/hg19.gtf

上一个命令中使用的参数:


生成基因组索引后,FASTQ文件中的序列将与先前准备的参考中的注释基因和剪接连接对齐。下面的命令使STAR输出基因和连接读取计数到以ReadsPerGene.out.tab而且SJ.out.tab,分别。

align () {echo " align ${1} using STAR…"STAR——runThreadN 16 \——genomeDir hg19_STAR \——quantMode GeneCounts \——readFilesCommand zcat \——outFileNamePrefix ${1} \——readFilesIn ${1}_1.fastq.gz ${1}_2.fastq.gz}对齐“${each}”做了吗

上一个命令中使用的参数:

准备灵数的输出

要处理生成的数据文件,打开R控制台或RStudio并输入:

#更改工作目录到STAR输出所在的位置setwd“/道路/ /对齐输出/”图书馆(psichomics)prepareGeneQuant“SRR6368612ReadsPerGene.out.tab”“SRR6368613ReadsPerGene.out.tab”“SRR6368614ReadsPerGene.out.tab”“SRR6368615ReadsPerGene.out.tab”“SRR6368616ReadsPerGene.out.tab”“SRR6368617ReadsPerGene.out.tab”prepareJunctionQuant“SRR6368612SJ.out.tab”“SRR6368613SJ.out.tab”“SRR6368614SJ.out.tab”“SRR6368615SJ.out.tab”“SRR6368616SJ.out.tab”“SRR6368617SJ.out.tab”prepareSRAmetadata“SraRunTable.txt”

在可视化界面中加载数据

在R控制台或RStudio中使用以下命令启动psichomics:

然后,单击加载用户文件.单击文件夹输入选项卡并选择存储psickills准备的数据的适当文件夹。最后,点击加载文件自动扫描并加载所选文件夹中受支持的文件。

通过命令行方式加载数据

反馈

欢迎所有关于程序、文档和相关材料(包括本教程)的反馈。如有任何意见或问题,请电邮至:

Nuno Saraiva-Agostinho (nunoagostinho@medicina.ulisboa.pt

葡萄牙分子医学研究所疾病转录组实验室

参考文献

王,E.T.et al。(2008)人类组织转录组中的替代亚型调控。自然456, 470 - 476。