psichomics是一个交互式R包的综合分析替代剪接和基因表达基于癌症基因组图谱(TCGA)(包含34种肿瘤类型的相关分子数据)基因型-组织表达(GTEx)项目(包含多个正常人体组织的数据)序列读归档以及用户提供的数据。
下面的教程介绍了加载自定义RNA-seq数据所需的步骤:
SRA是一个生物序列数据存储库,存储了许多已发表文章的数据。SRA数据可能有助于利用公开数据回答紧迫的生物学问题。
最新版本的灵能术支持自动下载SRA数据从recount2,一个为数千个SRA项目提供预处理数据的资源(包括基因读取计数、剪接结量化和样本元数据)。首先检查您感兴趣的项目是否无法通过此资源获得,从而更容易分析您感兴趣的样本的基因表达和替代剪接。
SRA的数据可使用fastq-dump命令从sra-tools.例如,从SRP126561项目中,我们可以做以下工作:
#列出SRA样本样本=(SRR6368612 SRR6368613 SRR6368614 SRR6368615 SRR6368616 SRR6368617) #下载每个样本使用fastq-dump每个在${samples};fastq-dump——gzip——split-3 ${each}做了吗
上一个命令中使用的参数:
——gzip
:压缩GZIP格式的FASTQ文件——split-3
:允许分别输出一个或两个单端或成对端测序的FASTQ文件(第三个FASTQ文件也可能返回包含从成对端测序数据中获得的孤立的单端读取)与样本相关的数据也可从运行选择器页面。点击RunInfo表下载所有示例的整个元数据表。
每个可选剪接事件的量化是基于支持包含异构体的结读的比例,称为百分比剪接或PSI(王et al。, 2008).
为了估计每个剪接事件的这个值,需要对对齐到剪接结的RNA-Seq读取进行替代剪接注释和量化(结量化)。虽然包提供了可选的剪接注释,但需要从用户提供的数据中准备连接量化,方法是将来自FASTQ文件的RNA-seq读取与参考基因组对齐。由于需要使用连接读取来量化可选拼接,因此将使用一个感知拼接的对齐器。psichomics目前支持STAR输出。
在将FASTQ样本与参考基因组进行比对之前,需要准备一个基因组索引。
首先下载一个全基因组的FASTA文件和一个带有注释的转录本的GTF文件。要运行以下示例,请下载人类FASTA和GTF文件(hg19汇编).
mkdir hg19_STAR STAR——runThreadN 4 \——runMode genomeGenerate \——genomeDir hg19_STAR \——genomeFastaFiles /path/to/hg19. mkdir hg19_STAR STAR——runThreadN 4 \——runMode genomeGenerate \——genomeDir hg19_STAR \——genome efastafiles /path/to/hg19. mkdirfa \——sjdbGTFfile /path/to/hg19.gtf
上一个命令中使用的参数:
——runThreadN 4
:用4个线程并行运行STAR——runMode genomeGenerate
:生成基因组指数——genomeDir
:基因组索引目录(输出)——genomeFastaFiles
:基因组文件路径(FASTA格式)——sjdbGTFfile
:文本注释路径(GTF格式)生成基因组索引后,FASTQ文件中的序列将与先前准备的参考中的注释基因和剪接连接对齐。下面的命令使STAR输出基因和连接读取计数到以ReadsPerGene.out.tab
而且SJ.out.tab
,分别。
align () {echo " align ${1} using STAR…"STAR——runThreadN 16 \——genomeDir hg19_STAR \——quantMode GeneCounts \——readFilesCommand zcat \——outFileNamePrefix ${1} \——readFilesIn ${1}_1.fastq.gz ${1}_2.fastq.gz}对齐“${each}”做了吗
上一个命令中使用的参数:
——runThreadN 4
:用4个线程并行运行STAR——genomeDir
:基因组索引目录(输入)——quantMode GeneCounts
:计数读数对齐每个基因——readFilesCommand
:命令,解压FASTQ压缩文件——outFileNamePrefix
:输出前缀——readFilesIn
:要对齐的FASTQ文件要处理生成的数据文件,打开R控制台或RStudio并输入:
#更改工作目录到STAR输出所在的位置setwd(“/道路/ /对齐输出/”)图书馆(psichomics)prepareGeneQuant(“SRR6368612ReadsPerGene.out.tab”,“SRR6368613ReadsPerGene.out.tab”,“SRR6368614ReadsPerGene.out.tab”,“SRR6368615ReadsPerGene.out.tab”,“SRR6368616ReadsPerGene.out.tab”,“SRR6368617ReadsPerGene.out.tab”)prepareJunctionQuant(“SRR6368612SJ.out.tab”,“SRR6368613SJ.out.tab”,“SRR6368614SJ.out.tab”,“SRR6368615SJ.out.tab”,“SRR6368616SJ.out.tab”,“SRR6368617SJ.out.tab”)prepareSRAmetadata(“SraRunTable.txt”)
在R控制台或RStudio中使用以下命令启动psichomics:
然后,单击加载用户文件.单击文件夹输入选项卡并选择存储psickills准备的数据的适当文件夹。最后,点击加载文件自动扫描并加载所选文件夹中受支持的文件。
欢迎所有关于程序、文档和相关材料(包括本教程)的反馈。如有任何意见或问题,请电邮至:
Nuno Saraiva-Agostinho (nunoagostinho@medicina.ulisboa.pt)
王,E.T.et al。(2008)人类组织转录组中的替代亚型调控。自然,456, 470 - 476。