加载用户提供的数据

努诺·Saraiva-Agostinho

2022-11-01

psichomics是一个交互式R包,用于基于多种来源的数据(包括用户提供的数据)的替代剪接和基因表达的综合分析。

支持的文件格式

Psichomics支持以下数据源。每个源都有一个带有数据加载指令的链接。

样品信息 学科信息 基因表达 外显子-外显子结定量 可选的拼接量化
SRA运行选择器 是的
明星 是的 是的
VAST-TOOLS 是的 是的
TCGA(通过FireBrowse) 是的 是的 是的 是的
SRA(通过重新计票) 是的 是的 是的 是的
GTEx 是的 是的 是的 是的
其他来源 是的 是的 是的 是的 有限公司*

* psichomics无法根据这些来源的表完全解析其他剪接事件(例如,它可能无法识别同源基因和坐标)。

准备SRA运行选择器数据

SRA运行选择器包含样本元数据,可从SRA项目下载所有或选定的样本。要下载示例信息,请单击元数据按钮。下载列。输出文件通常被命名SraRunTable.txt

要继续加载数据,请将下载的文件移动到一个新文件夹中,并按照中的说明操作加载用户提供的数据到psichomics

使用STAR根据RNA-seq数据准备表格

下面将介绍基于RNA-seq数据加载数据所需的步骤:

  1. 检索FASTQ文件和与样本相关的信息(如果您已经拥有FASTQ文件,则是可选的);
  2. Map RNA-seq从FASTQ文件读取引用基因组,使用一个感知剪接的校准器,例如明星
  3. 合并并准备其输出,以便由灵算符正确解释;
  4. 将数据加载到灵能芯片中。

下载FASTQ文件(可选)

SRA是一个生物序列存储库,存储了许多已发表文章的数据,有可能回答紧迫的生物学问题。

最新版本的灵能术支持自动下载SRA数据重新计票,一个为数千个SRA项目提供预处理数据的资源(包括基因读取计数、剪接结量化和样本元数据)。首先,检查你感兴趣的项目是否在重新计数中可用,从而更快地分析你感兴趣的样本的基因表达和替代剪接。

SRA的数据可使用fasterq-dump命令从sra-tools.例如,从SRP126561项目:

#列出SRA样本样品= (Srr6368612 srr6368613 srr6368614 srr6368615 srr6368616 srr6368617#下载样本fasterq-dump——split-3${}的样本

——split-3允许输出一个或两个FASTQ文件分别用于单端或配对端测序(第三个FASTQ文件也可能返回包含从配对端测序数据获得的孤立的单端读取)

与样本相关的数据也可从运行选择器页面。点击RunInfo表下载所有示例的整个元数据表(通常下载在一个名为SraRunTable.txt).

对齐RNA-seq数据来量化剪接连接

每个可选剪接事件的量化是基于支持包含异构体的结读的比例,称为百分比剪接或PSI(王et al。, 2008)

为了估计每个剪接事件的这个值,需要对对齐到剪接结的RNA-Seq读取进行替代剪接注释和量化(结量化)。虽然包提供了可选的剪接注释,但需要从用户提供的数据中准备连接量化,方法是将来自FASTQ文件的RNA-seq读取与参考基因组对齐。由于需要使用连接读取来量化可选拼接,因此将使用一个感知拼接的对齐器。

灵能术目前支持明星输出。

利用STAR进行基因组索引

在将FASTQ样本与参考基因组进行比对之前,需要准备一个索引。

首先下载一个全基因组的FASTA文件和一个带有注释转录本的GTF文件。这个命令使用了这些人类FASTA和GTF文件(hg19汇编)

mkdirhg19_STAR明星——runMode genomeGenerate——genomeDirhg19_STAR——genomeFastaFiles/ / hg19.fa /路径——sjdbGTFfile/ / hg19.gtf /路径——runThreadN4#参数:生成基因组索引#——genomeDir基因组索引路径(输出)基因组FASTA文件路径连接GTF注释的路径使用4个线程并行运行

使用STAR对准基因组索引

在生成基因组索引之后,FASTQ文件中的序列需要与先前准备的参考中的注释基因和剪接连接对齐。下面的命令使STAR输出基因和连接读取计数到以ReadsPerGene.out.tab而且SJ.out.tab,分别。

对齐()回声“调整$ {1}使用星……”明星——readFilesIn$ {1}_1.fastq$ {1}_2.fastq——runThreadN16——genomeDirhg19_STAR——readFilesCommandzcat——quantModeGeneCounts——outFileNamePrefix$ {1}#参数:在FASTQ文件中进行对齐使用16个线程并行运行#——genomeDir基因组索引路径(输入)使用zcat解压压缩文件返回基因读取计数——outFileNamePrefix输出文件的前缀每一个${}的样本对齐${一}完成

准备灵数的输出

要处理生成的数据文件,输入R:

#更改工作目录到STAR输出所在的位置setwd“/道路/ /对齐输出/”图书馆(psichomics)prepareGeneQuant“SRR6368612ReadsPerGene.out.tab”“SRR6368613ReadsPerGene.out.tab”“SRR6368614ReadsPerGene.out.tab”“SRR6368615ReadsPerGene.out.tab”“SRR6368616ReadsPerGene.out.tab”“SRR6368617ReadsPerGene.out.tab”prepareJunctionQuant“SRR6368612SJ.out.tab”“SRR6368613SJ.out.tab”“SRR6368614SJ.out.tab”“SRR6368615SJ.out.tab”“SRR6368616SJ.out.tab”“SRR6368617SJ.out.tab”

要加载数据,请将文件(包括SRA元数据)移动到一个新文件夹中,并按照中的说明操作加载用户提供的数据到psichomics

准备VAST-TOOLS数据

Psichomics支持装载包含水平和基因表达表VAST-TOOLS(表运行后可用vast-tools结合).注意:

任何样本和/或主题信息也可能对加载有用。除非样例元数据来自SRA运行选择器,请确保表被psichomics识别:read准备通用数据

加载数据并将所有文件移动到一个新文件夹(VAST-TOOLS替代剪接量化和基因表达表以及样本/受试者相关信息)。

请按照加载用户提供的数据到psichomics在可视化界面中加载文件。否则,使用函数loadLocalFiles ()以文件夹路径作为参数:

图书馆(psichomics)数据< -loadLocalFiles“/道路/ / psichomics /输入”的名字(数据)的名字(数据[[1]])junctionQuant < -数据[[1]]结量化sampleInfo < -数据[[1]]元数据样本基因读计数和crpms都作为单独的数据帧加载geneReadCounts < -数据[[1]]基因表达(读取计数)cRPKM < -数据[[1]]基因表达

准备FireBrowse数据

FireBrowse包含, TCGA多种肿瘤类型的数据,可以自动下载,然后加载使用psichomics。

或者,手动下载文件FireBrowse可以移动到一个文件夹,然后加载在灵能通过以下说明在加载用户提供的数据到psichomics

准备GTEx数据

GTEx包含多个正常组织的数据。GTEx数据可以自动下载,然后加载使用psichomics。

或者,手动下载文件GTEx可以移动到一个文件夹,然后加载在灵能通过以下说明在加载用户提供的数据到psichomics

准备来自任何来源的数据

Psichomics支持从任何来源导入通用数据,只要表准备如下所示。

请确保样本和主题标识符之间完全相同所有的数据集

样品信息

如果您正在使用来自SRA运行选择器,请参阅如何准备SRA运行选择器数据

  • 制表符分隔值(TSV)
  • 示例标识符(行)和他们的属性(列)
  • 第一列必须包含示例标识符并命名样品标识
  • 可选地,在名为的列中指示与每个示例关联的主题对象ID(主题标识符必须与主题信息中使用的标识符相同)
  • 有效示例信息数据集的示例:
样品标识 类型 组织 对象ID
SMP-01 肿瘤 SUBJ-03
SMP-02 正常的 SUBJ-12
SMP-03 正常的 SUBJ-25

学科信息

  • 制表符分隔值(TSV)
  • 主题标识符(行)和他们的属性(列)
  • 第一列必须包含主题标识符并命名对象ID
  • 有效的主题信息数据集示例:
对象ID 年龄 性别 比赛
SUBJ-01 34 黑色的
SUBJ-02 22 男性 黑色的
SUBJ-03 58 亚洲

基因表达

  • 制表符分隔值(TSV)
  • 读取计数基因(行)样本(列)(样本标识符必须与样本信息中使用的标识符相同)
  • 第一列必须包含唯一的基因名称(符号、Ensembl ID等)并被命名基因身份证
  • 一个有效的基因表达数据集的例子:
基因身份证 SMP-18 SMP-03 SMP-54
AMP1 24 10 43
乳腺癌易感基因1 38 46 32
BRCA2 43 65 21

外显子-外显子结定量

  • 制表符分隔值(TSV)
  • 读取计数外显子-外显子连接(行)样品(列)(样本标识符必须与样本信息中使用的标识符相同)
  • 第一列必须包含连接标识符并命名结ID
  • 只支持染色体数和大写字母X, Y, Z, W和M,后面是基因组区域;可接受的连接标识符包括:
    • 10 _18748_21822
    • 第10号染色体(18748至21822)
    • chr10:18748 - 21822
  • 可选地,用指示链+-在连接标识符的末尾:
    • 10:3213:9402: +
    • chr10:3213 - 9402
  • 染色体为的连接标识符alt随机联合国(即替代序列)被丢弃
  • 有效的外显子-外显子结定量数据集示例:
结ID SMP-18 SMP-03
10:6752 - 7393 4 0
10:18748 - 21822 8 46
10:24257 - 25325 83 65

可选的拼接量化(也称为包含级别)

请注意,psichomics目前不能从用户提供的通用表中解析可选的剪接事件(例如,识别同源基因和坐标)。

  • 制表符分隔值(TSV)
  • 量化值可选的剪接事件(行)样品(列)(样本标识符必须与样本信息中使用的标识符相同)
  • 第一列必须命名AS事件ID
  • 取值范围为0 ~ 1或0 ~ 100:如果是后者,则自动在0 ~ 1之间进行伸缩
  • 一个有效的替代拼接量化数据集的例子:
AS事件ID SMP-18 SMP-03
someASevent001 0.71 0.30
anotherASevent653 0.63 0.37
yetAnother097 0.38 0.62

要加载数据,请将文件移动到一个新文件夹中,并按照中的说明操作加载用户提供的数据到psichomics

加载用户提供的数据到psichomics

使用可视化界面加载

在R控制台或RStudio中使用以下命令启动psichomics:

图书馆(psichomics)psichomics()

然后,单击加载用户文件.单击文件夹输入选项卡并选择适当的文件夹。最后,点击加载文件自动扫描并加载该文件夹中所有受支持的文件。

使用命令行界面(CLI)加载

使用功能loadLocalFiles ()以文件夹路径作为参数:

图书馆(psichomics)数据< -loadLocalFiles“/道路/ / psichomics /输入”的名字(数据)的名字(数据[[1]])geneExpr < -数据[[1]]基因表达junctionQuant < -数据[[1]]结量化sampleInfo < -数据[[1]]元数据样本

反馈

欢迎所有关于程序、文档和相关材料(包括本教程)的反馈。如有任何意见或问题,请电邮至:

Nuno Saraiva-Agostinho (

葡萄牙分子医学研究所疾病转录组实验室

参考文献

王,E.T.et al。(2008)人类组织转录组中的替代亚型调控。自然456, 470 - 476。