psichomics是一个交互式R包,用于基于多种来源的数据(包括用户提供的数据)的替代剪接和基因表达的综合分析。
Psichomics支持以下数据源。每个源都有一个带有数据加载指令的链接。
源 | 样品信息 | 学科信息 | 基因表达 | 外显子-外显子结定量 | 可选的拼接量化 |
---|---|---|---|---|---|
SRA运行选择器 | 是的 | ||||
明星 | 是的 | 是的 | |||
VAST-TOOLS | 是的 | 是的 | |||
TCGA(通过FireBrowse) | 是的 | 是的 | 是的 | 是的 | |
SRA(通过重新计票) | 是的 | 是的 | 是的 | 是的 | |
GTEx | 是的 | 是的 | 是的 | 是的 | |
其他来源 | 是的 | 是的 | 是的 | 是的 | 有限公司* |
* psichomics无法根据这些来源的表完全解析其他剪接事件(例如,它可能无法识别同源基因和坐标)。
的SRA运行选择器包含样本元数据,可从SRA项目下载所有或选定的样本。要下载示例信息,请单击元数据按钮。下载列。输出文件通常被命名SraRunTable.txt
.
要继续加载数据,请将下载的文件移动到一个新文件夹中,并按照中的说明操作加载用户提供的数据到psichomics.
下面将介绍基于RNA-seq数据加载数据所需的步骤:
SRA是一个生物序列存储库,存储了许多已发表文章的数据,有可能回答紧迫的生物学问题。
最新版本的灵能术支持自动下载SRA数据从重新计票,一个为数千个SRA项目提供预处理数据的资源(包括基因读取计数、剪接结量化和样本元数据)。首先,检查你感兴趣的项目是否在重新计数中可用,从而更快地分析你感兴趣的样本的基因表达和替代剪接。
SRA的数据可使用fasterq-dump命令从sra-tools.例如,从SRP126561项目:
#列出SRA样本样品= (Srr6368612 srr6368613 srr6368614 srr6368615 srr6368616 srr6368617)#下载样本fasterq-dump——split-3${}的样本
——split-3
允许输出一个或两个FASTQ文件分别用于单端或配对端测序(第三个FASTQ文件也可能返回包含从配对端测序数据获得的孤立的单端读取)
与样本相关的数据也可从运行选择器页面。点击RunInfo表下载所有示例的整个元数据表(通常下载在一个名为SraRunTable.txt
).
每个可选剪接事件的量化是基于支持包含异构体的结读的比例,称为百分比剪接或PSI(王et al。, 2008).
为了估计每个剪接事件的这个值,需要对对齐到剪接结的RNA-Seq读取进行替代剪接注释和量化(结量化)。虽然包提供了可选的剪接注释,但需要从用户提供的数据中准备连接量化,方法是将来自FASTQ文件的RNA-seq读取与参考基因组对齐。由于需要使用连接读取来量化可选拼接,因此将使用一个感知拼接的对齐器。
灵能术目前支持明星输出。
在将FASTQ样本与参考基因组进行比对之前,需要准备一个索引。
首先下载一个全基因组的FASTA文件和一个带有注释转录本的GTF文件。这个命令使用了这些人类FASTA和GTF文件(hg19汇编).
mkdirhg19_STAR明星——runMode genomeGenerate\——genomeDirhg19_STAR\——genomeFastaFiles/ / hg19.fa /路径\——sjdbGTFfile/ / hg19.gtf /路径\——runThreadN4#参数:生成基因组索引#——genomeDir基因组索引路径(输出)基因组FASTA文件路径连接GTF注释的路径使用4个线程并行运行
在生成基因组索引之后,FASTQ文件中的序列需要与先前准备的参考中的注释基因和剪接连接对齐。下面的命令使STAR输出基因和连接读取计数到以ReadsPerGene.out.tab
而且SJ.out.tab
,分别。
对齐(){回声“调整$ {1}使用星……”明星——readFilesIn$ {1}_1.fastq$ {1}_2.fastq\——runThreadN16\——genomeDirhg19_STAR\——readFilesCommandzcat\——quantModeGeneCounts\——outFileNamePrefix$ {1}}#参数:在FASTQ文件中进行对齐使用16个线程并行运行#——genomeDir基因组索引路径(输入)使用zcat解压压缩文件返回基因读取计数——outFileNamePrefix输出文件的前缀为每一个在${}的样本;做对齐"${一}"完成
要处理生成的数据文件,输入R:
#更改工作目录到STAR输出所在的位置setwd(“/道路/ /对齐输出/”)图书馆(psichomics)prepareGeneQuant(“SRR6368612ReadsPerGene.out.tab”,“SRR6368613ReadsPerGene.out.tab”,“SRR6368614ReadsPerGene.out.tab”,“SRR6368615ReadsPerGene.out.tab”,“SRR6368616ReadsPerGene.out.tab”,“SRR6368617ReadsPerGene.out.tab”)prepareJunctionQuant(“SRR6368612SJ.out.tab”,“SRR6368613SJ.out.tab”,“SRR6368614SJ.out.tab”,“SRR6368615SJ.out.tab”,“SRR6368616SJ.out.tab”,“SRR6368617SJ.out.tab”)
要加载数据,请将文件(包括SRA元数据)移动到一个新文件夹中,并按照中的说明操作加载用户提供的数据到psichomics.
Psichomics支持装载包含水平和基因表达表VAST-TOOLS(表运行后可用vast-tools结合
).注意:
vast-tools对齐
与参数- - - expr
;vast-tools结合
与参数- c
(如有疑问,总是计算crppm和基因读取计数)。任何样本和/或主题信息也可能对加载有用。除非样例元数据来自SRA运行选择器,请确保表被psichomics识别:read准备通用数据.
加载数据并将所有文件移动到一个新文件夹(VAST-TOOLS替代剪接量化和基因表达表以及样本/受试者相关信息)。
请按照加载用户提供的数据到psichomics在可视化界面中加载文件。否则,使用函数loadLocalFiles ()
以文件夹路径作为参数:
图书馆(psichomics)loadLocalFiles(“/道路/ / psichomics /输入”) 数据< -的名字(数据)的名字(数据[[1]])1]]$`结量化` junctionQuant < -数据[[1]]$`元数据样本` sampleInfo < -数据[[基因读计数和crpms都作为单独的数据帧加载1]]$`基因表达(读取计数)` geneReadCounts < -数据[[1]]$`基因表达` cRPKM < -数据[[
FireBrowse包含, TCGA多种肿瘤类型的数据,可以自动下载,然后加载使用psichomics。
或者,手动下载文件FireBrowse可以移动到一个文件夹,然后加载在灵能通过以下说明在加载用户提供的数据到psichomics.
GTEx包含多个正常组织的数据。GTEx数据可以自动下载,然后加载使用psichomics。
或者,手动下载文件GTEx可以移动到一个文件夹,然后加载在灵能通过以下说明在加载用户提供的数据到psichomics.
Psichomics支持从任何来源导入通用数据,只要表准备如下所示。
请确保样本和主题标识符之间完全相同所有的数据集.
如果您正在使用来自SRA运行选择器,请参阅如何准备SRA运行选择器数据.
样品标识
对象ID
(主题标识符必须与主题信息中使用的标识符相同)样品标识 | 类型 | 组织 | 对象ID |
---|---|---|---|
SMP-01 | 肿瘤 | 肺 | SUBJ-03 |
SMP-02 | 正常的 | 血 | SUBJ-12 |
SMP-03 | 正常的 | 血 | SUBJ-25 |
对象ID
对象ID | 年龄 | 性别 | 比赛 |
---|---|---|---|
SUBJ-01 | 34 | 女 | 黑色的 |
SUBJ-02 | 22 | 男性 | 黑色的 |
SUBJ-03 | 58 | 女 | 亚洲 |
基因身份证
基因身份证 | SMP-18 | SMP-03 | SMP-54 |
---|---|---|---|
AMP1 | 24 | 10 | 43 |
乳腺癌易感基因1 | 38 | 46 | 32 |
BRCA2 | 43 | 65 | 21 |
结ID
10 _18748_21822
第10号染色体(18748至21822)
chr10:18748 - 21822
+
或-
在连接标识符的末尾:10:3213:9402: +
chr10:3213 - 9402
alt
,随机
或联合国
(即替代序列)被丢弃结ID | SMP-18 | SMP-03 |
---|---|---|
10:6752 - 7393 | 4 | 0 |
10:18748 - 21822 | 8 | 46 |
10:24257 - 25325 | 83 | 65 |
请注意,psichomics目前不能从用户提供的通用表中解析可选的剪接事件(例如,识别同源基因和坐标)。
AS事件ID
AS事件ID | SMP-18 | SMP-03 |
---|---|---|
someASevent001 | 0.71 | 0.30 |
anotherASevent653 | 0.63 | 0.37 |
yetAnother097 | 0.38 | 0.62 |
要加载数据,请将文件移动到一个新文件夹中,并按照中的说明操作加载用户提供的数据到psichomics.
在R控制台或RStudio中使用以下命令启动psichomics:
图书馆(psichomics)psichomics()
然后,单击加载用户文件.单击文件夹输入选项卡并选择适当的文件夹。最后,点击加载文件自动扫描并加载该文件夹中所有受支持的文件。
使用功能loadLocalFiles ()
以文件夹路径作为参数:
图书馆(psichomics)loadLocalFiles(“/道路/ / psichomics /输入”) 数据< -的名字(数据)的名字(数据[[1]])1]]$`基因表达` geneExpr < -数据[[1]]$`结量化` junctionQuant < -数据[[1]]$`元数据样本` sampleInfo < -数据[[
欢迎所有关于程序、文档和相关材料(包括本教程)的反馈。如有任何意见或问题,请电邮至:
Nuno Saraiva-Agostinho (nunoagostinho@medicina.ulisboa.pt)
王,E.T.et al。(2008)人类组织转录组中的替代亚型调控。自然,456, 470 - 476。