内容

1介绍

拼接的去除intronic序列从新生pre-mRNA记录导致成熟的mRNA的形成。有许多的剪接机制和是一个管理过程,通常涉及多个rna结合蛋白。在真核生物拼接会导致基因亚型,poly-cistronic成绩单、基因融合和环状RNA (circRNA)。

的复杂性可以被RNA-Sequencing拼接。Ularcirc需要规范向前切结(FSJ)和backsplice结(BSJ)输出产生各种各样的程序(星对准器,Regtools circExplorer2, CIRI2)并提供了一个平台集成和分析这些数据集。Ularcirc提供可视化和分析工具的提出规范接头连接(来自成熟的mrna)和backsplice连接(从circRNAs生成)。Ularcirc动态生成的数据可视化,包括区域内定义的变焦能力基因位点,而且可以提取成绩单横贯特定的外显子序列连接。

理论上Ularcirc可以在任何硬件操作能够运行R-programing语言。通过菜单驱动的所有操作进行实时的互动分析,数据表和可视化动态生成。Ularcirc并不需要大量计算资源,目前正在实施一个CPU线程上运行。保存的项目数据集小(通常是在低范围MB)使简单的共享数据文件。介绍如何使用教程Ularcirc可以在youtube上找到。

Ularcirc由众多互动屏幕组成的一个主要和侧板。主面板允许用户选择其中一个题目的四个选项卡设置,项目,Gene_View,Genome_View,Junction_View。不同的侧板存在每个主面板和显示特定的选项,帮助直接和装配分析。主面板将显示输出相关circRNA分析每个阶段详细描述了这一幕。用户应该意识到一些分析可能需要时间来完成和浮动状态栏将通知的进展。结束\{文摘}

2快速入门

下面演示了如何下载Ularcirc,安装所需的数据库,然后想象Slc8a1规范化和backsplice连接数量的基因。

步骤1:安装Ularcirc包

如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(“Ularcirc”)

步骤2:负载注释数据库:Ularcirc附带一个现有的数据集已经hg38对齐。而不需要注释来识别circRNAs我们推荐下载相应的人类注释数据库如下:

如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (BiocManager) \ dontrun {BiocManager:安装(c (“BSgenome.Hsapiens.UCSC。hg38”, #基因组;使“TxDb.Hsapiens.UCSC.hg38序列分析。knownGene org.Hs.eg.db“#记录数据库)#注释数据库}

步骤3:开始Ularcirc,负载注释数据库加载项目数据

库(Ularcirc) Ularcirc ()

如果注释+成绩单+基因组数据库加载加载数据库记录他们应该自动填充左边面板(如图1。新闻加载数据库记录下面这个按钮会出现文本Hsapiens.UCSC.hg38

截图Ularcirc可用的注释

图1:截图Ularcirc可用的注释

加载的加载数据集称为TwoSzabo通过项目选项卡。加载后会出现一个弹出窗口显示相关的元数据(包含信息,供您参考)。点击任何地方在这个窗口关闭它。现在应该出现在两个数据文件选择的样本分组分析标题主要选项卡上。

目的:

导航到Gene_View选项卡。TwoSzabo数据集包含两个BSJ来源和FSJ数据来源之一。BSJ数据生成从明星嵌合输出结文件或circExplorer2。有一个单选按钮BSJ数据源这允许您选择您希望分析数据集。之前分析BSJ你需要组装整理BSJ数据表。为此circExplorer2数据确保circExplorer2单选按钮被选中,然后按建立表在左面板表显示选项。明星派生BSJ数据选择单选按钮然后选择明星注释与父母的基因如图2。明星BSJ数据你需要选择你希望多少BSJ识别通过选择一个数字BS连接显示的数量(我。e数量越高时间越长它需要组装。注意,在这个过程中最丰富的BSJ第一)。下一个选择建立表然后Ularcirc将构建一个注释backspice结项表。

截图Ularcirc基因的视图选项卡。

图2:截图Ularcirc基因的视图选项卡

选择表中的第一个元素(它将突出蓝色)。下一个选择Display_Gene_Transcripts从左边选项卡标题下显示模式。这将动态生成可视化的Slc8a1 backsplice和标准接头连接。

截图Slc8a1拼接和标准接头连接。

图3:截图Slc8a1拼接和标准接头连接

视图这5分钟的视频这将涵盖上述点等等。

3准备输入数据集

3.1接头连接文件

Ularcirc需要规范和嵌合接头连接星对准器产生的输出文件必须包含SJ.out的默认文件扩展名。选项卡并Chimeric.out。分别连接。为详细说明如何使用星对准器读取明星手册。注意,星对准器需要大量的计算资源。星系有公开可用的资源来运行星如果您没有访问到其他高性能计算资源https://usegalaxy.org)。来生成所需的嵌合连接文件以下两个参数必须提供明星对准器。提供给每个参数的数值描述特性用于检测嵌合读取,因此可能需要改变来提高灵敏度和准确性。

——chimSegmentMin 15 chimJunctionOverhangMin 15

Ularcirc只能通过上传一个文件添加到单个项目。多次试图上传只会导致之前上传被覆盖当前的上传。单个或多个样本,都有一个共同文件的前缀。因此对于一个给定的项目所有接头连接文件必须位于一个共同的目录并有适当的文件前缀。例如,如果以下文件上传到Ularcirc:

SRR12345678_e17.5_heart.Chimeric.out。结SRR12345678_e17.5_heart.SJ.out。选项卡SRR87654321_P10_heart.Chimeric.out。结SRR87654321_P10_heart.SJ.out。tab

上面的示例将导致两个样品id被导入Ularcirc SRR123456768_e17.5_heart SRR87654321_P10_heart。强烈建议提供一个描述性的名称作为Ularcirc重命名这个时候样品没有提供功能。文件上传后项目可以输入文件名和保存。星对准器可以指示为输出文件分配一个常见的前缀。这个可以指定以下选项:

——outFileNamePrefix Type_your_prefix_here

3.2注释数据库

Ularcirc可以通过整合bioconductor注释backsplice和标准接头连接数据库。每个有机体需要三个安装,所需的数据集的例子最近的人类和小鼠如下所示。

数据库类型 数据库名称为hg38
BSGenome BSgenome.Hsapiens.UCSC.hg38
TxDb TxDb.Hsapiens.UCSC.hg38.knownGene
OrgDatabase org.Hs.eg.db
数据库类型 数据库名称mm10
BSGenome BSgenome.Mmusculus.UCSC.mm10
TxDb TxDb.Mmusculus.UCSC.mm10.knownGene
OrgDatabase org.Mm.eg.db

4工作流

Ularcirc旨在遵循逻辑系统的工作流程分为五个关键步骤。每一步都是可以通过一个选项卡,可以选择通过主面板如图。左边的工作流开始大多数选项卡(设置)的初始屏幕显示。设置选项卡中还提供了一个快速入门指南,布里干酪描述了工作流。本章提供了一个更深入每一个步骤的概述和鼓励用户这一章的内容熟悉,使Ularcirc。

4.1步骤1 a:加载注释数据

在启动时Ularcirc加载和显示内容设置在主面板选项卡。侧板可以配置为三个选项之一,通过下拉菜单选择步配置。默认配置负荷记录数据库使有机体的选择,通过单独的基因组和转录组数据库下拉菜单的标题下生物。如果三个下拉菜单不填充这表明从bioconductor数据库没有被安装。

4.2步骤1 b:设置过滤器

4.2.1基因组的过滤器

Ularcirc提供了基因组过滤选项和circRNA过滤选项。基因组筛选提供选项来限制嵌合(BSJ)检测基因定义距离/位置。默认的限制是为了捕捉大多数哺乳动物circRNAs。然而这些限制可以轻松将增加嵌合候选人的数量和潜在的假阳性。下面是基因组的描述过滤器:

过滤器 描述
相同的染色体 选择这个复选框只会选择跨一个常见的染色体嵌合读取。
嵌合基因的距离 这是最大和最小距离嵌合考虑确定在同一染色体嵌合连接。默认设置将不会检测和嵌合连接横跨少于200 nt或超过100000元。
相同的链 只会选择嵌合连接相同的链。

4.2.2circRNA过滤器

两个circRNA过滤器是用来区分错误和真正的优点。第一个过滤器是读一致性分布(RAD)得分这是II型和III型排列的比率。只能计算出双端测序数据,应该只适用于BSJ有合理的深度(如> 9)。

第二个过滤器FSJ支持确定如果每个也利用FSJ BSJ坐标。鉴于两种坐标定义一个BSJ相应FSJ支持度量的值为0,1或2。FSJ支持得分可以计算出所有BSJ无论读计数。

Ularcirc提供功能来过滤BSJ对RAD和FSJ支持预定义值指标。默认阈值可以修改后基因标签下选择DisplayFilterOptions复选框(见下图)

4.3步骤1 c:加载新数据集

Ularcirc可以生成输出文件要求从以下程序:星对准器,circExplorer2, CIRI2 regtools。至少一个FSJ完全功能,一个BSJ,一个基因计算每个样本数据集加载。星对准器产生FSJ, BSJ和基因计数输出文件有以下预设文件扩展名:SJ.out。选项卡(FSJ), Chimeric.out。结(嵌合连接),ReadsPerGene.tab。(基因数)。CircExplorer2和CIRI2要求输出文件的文件扩展名ceciri一半。

是非常重要的,通常为个人样本输入文件的prefx(例子如下所示)。上传文件的用户必须导航到设置选项卡选择上传新数据然后选择浏览在标题上传输入数据文件。之前文件上传大量的基因组过滤配置选项是可用的。默认的过滤器要求嵌合比对存在在同一链相同的染色体,妄想结发生在距离不到100000个核苷酸。这些值可以通过互动调整选项显示在屏幕上。目前没有过滤器实现规范化接头连接和Ularcirc将利用所有信息从输入FSJ文件。明星FSJ文件Ularcirc只利用独特的对齐。

多个样本可以上传到Ularcirc但这只能在一个上传的事件。因此通常必须驻留在一个目录下的所有文件,这样他们就可以上传的所有选择。试图上传文件分别只会导致之前上传被覆盖当前的上传。在上传过程中Ularcirc显示一个状态标签通知的进展。用户将通知任何任何选定的文件不被Ularcirc(我。不正确的文件扩展名)。多文件上传样本期间,都有一个共同文件的前缀。例如,如果下面的文件上传到Ularcirc

SRR12345678_e17.5_heart.Chimeric.out。结SRR12345678_e17.5_heart.SJ.out。选项卡SRR12345678_e17.5_heart.ReadsPerGene.tab。SRR12345678_e17.5_heart。ceSRR87654321_P10_heart.Chimeric.out.junction SRR87654321_P10_heart.SJ.out.tab SRR87654321_P10_heart.ReadsPerGene.tab.out SRR87654321_P10_heart.ce

上面的示例将导致两个样品id被导入Ularcirc SRR123456768_e17.5_heart SRR87654321_P10_heart。每个样本都含有四个数据集(一个FSJ,一个基因数和两个BSJ数据文件),并且每个将被在Ularcirc这些名字。强烈建议提供一个描述项目名称当储蓄Ularcirc重命名这个时候样品没有提供功能。

上传项目文件后可以输入文件名和保存(参见步骤2保存/加载项目)。

4.4步骤2:保存/加载项目和分组样本

新的数据集或现有项目的数据集可以通过项目来保存或装载选项卡。加载数据集通过Ularcirc可以保存为一个项目文件,然后可以重新加载在稍后的日期。项目应该保存在一个公共文件夹/目录存在于本地文件系统。这个文件夹/目录定义项目的主页顶部的选项卡。这个目录不应该到R Ularcirc库目录设置为任何未来的升级将覆盖已存在的文件。

有大量的选项可用于RNA-Seq图书馆准备工具。用户应该意识到如果滞留或unstranded图书馆准备工具包。滞留RNA-Seq工具要么繁殖cDNA相同或相反的链RNA。例如Illumina公司TruSeq滞留RNA-seq图书馆准备装备生产cDNA相反链RNA。Ularcirc需要知道这些信息正确建立表和装配序列。Ularcirc的用户提供这些信息项目选项卡在标题图书馆准备在左边栏。

所有保存的项目工作目录中会列在“加载”下的下拉菜单位于标题栏。注意,任何新的数据集可能是加载在当前Ularcirc会话之前不会视觉Ularcirc重新启动。加载选择项目名称并按负载。数据加载当样品在主要选项卡列出名称。

拯救一个项目一个独特的项目名称必须输入条目下的侧栏项目名称然后按下保存按钮。Ularcirc不会覆盖现有的项目文件,将提醒用户如果输入名称并不是唯一的。

4.5步骤2 b:分组样本

后加载一个项目文件或上传新的结数据相关的样本IDs与复选框将列出两个位置在主标签。这两个清单被称为“选定的样本”和“数据分组”并提供提供下游分析可以执行方式的灵活性。

在第一个清单选择的样本提供用户选择分析特定的数据集分析的一个子集。这个选项是有用的探索circRNA表达模式在个人项目中可用的数据集。这个列表中选择数据集是唯一的样品,导致下的可视化集成基因组Gene_View选项卡。数据集delected在此清单中可以被用来通过Gene_View汇总backsplice结项选项卡,选择“选定的样本”。

第二个标题下提供清单样本id分组分析数据集。用户可以将样本分配给特定的组,这对于整个项目分析非常有用。组中定义侧边栏的数量,并能范围在1到10之间。定义组个体样本的数量后可以分配给一组通过主面板。样本选择在此清单可以通过名称“分组分析”分析下Gene_View选项卡。

4.6步骤3:生成BSJ计数

Gene_view标签的位置结果表和数据可视化。有两种显示模式显示基因转录列表项可以选择在侧边栏。“列表项”提供实时排序、注释和分析接头连接。数据集上定义的项目标签被称为分组分析选择的样本在标题数据集分析

Ularcirc提供了大量的注释选项纳入表。第一个注释选项显示%的记录。这个注释是最CPU密集型操作Ularcirc向前计算平均拼接连接(FSJ)在不同的基因特性。这包括计算平均FSJ计数BSJ的边界内,平均FSJ在父母的基因,和平均FSJ BSJ的边界之外。

读一致性分布(RAD)注释提供了一个帮助评估得分指标如果BSJ可能是假阳性。这个分数只能计算成对终端读取和反映出的比例调整捕捉BSJ源自一个读对。我们定义校准中捕获BSJ主要解读为II型和BSJ发现在配对阅读类型III。值为0.5的比例反映了从equalt BSJ被探测到II型和III型排列。默认设置是接受所有BSJ RAD得分在0.05和0.95之间,这一点在所有组装authomatically填充表。的应用RAD过滤器检查选项提供了一种快速选项禁用过滤BSJs RAD分数。

Ularcirc将自动注释所有条目与重叠的基因名称父母的基因。Ularcirc不过滤BSJ基于任何父母基因外显子边界等过滤。如果BSJ重叠两个基因基因条目将被填充到最终的表。不重叠的BSJ填充一个已知基因未知的

生成的表提供提供的功能来选择个人拼接juntions (FSJ和BSJ)。通过选择一个表行' Ularcirc基因进入和突出显示特定的结的颜色。也质数结分析了在“Junction_View”选项卡。

4.7步骤3 b:想象基因剪接模式

Ularcirc动态生成的影像的拼接连接与backsplice连接集成。访问此功能通过“显示基因记录”选项位于Gene_view选项卡。主面板的顶部是一个灰色的框,列表样本用于生成图像。下拉菜单可以选择基因名字的定义记录数据库(用户选择设置选项卡)。用户可以选择基因名称输入基因名字的一部分。打字时请注意,基因从服务器名称是动态加载的,因此如果基因名称输入过快将不会被发现。或者通过选择相应的基因可以选择行Tabulated_Counts下表的生成。

一次基因选择可视化基因时开始视图的基因按钮被选中。Ularcirc将动态准备两个循环图和一个基因模型图像。

4.8探索从任何基因组区域分割模式

基因组内标签Ularcirc提供探究的分析中定义的基因组区域。这是特别有用的探索接头连接存在的注释文本以外的地区。注意,Ularcirc预填充染色体条目从切结内的所有标识条目列出文件。用户无法想象染色体没有接头连接。开始和结束字段是手动输入。最终用户必须选择积极或消极的链。记住了链RNA-Seq包之间的不同。

4.9第五步:序列分析接头/ backsplice连接

获得详细的信息在一个特定的连接(向前插接或backsplice)必须选择结。接头连接后可以选择显示的Backsplice结计数数据规范化结数数据。注意,只有一个backsplice结和一个典型接头连接可以选择在任何时候。很多特性与所选的拼接和/或backsplice结中填充结视图选项卡。结的侧边栏菜单视图选项卡提供一个选项来显示信息选择backsplice或规范化结。的顺序backsplice或规范结包含一个在加入外显子的位置如下所示。Ularcirc还可以预测完成circRNA序列是一个连接的最长的组合外显子,驻留在backsplice结的边界。

Ularcirc结视图选项卡显示Slc8a1 backsplice结。注意,。角色定义拼接结

(#无花果:HG38Slc8a1_BSJ) Ularcirc结视图选项卡显示Slc8a1 backsplice结。注意,。角色定义拼接结

为backsplice路口Ularcirc进一步序列分析的形式开放阅读框(ORF)和微rna结合位点的分析。这些分析的输出可以选择从侧栏选项卡。ORF分析显示最长的开放框架作为一个图形的主要选项卡上一个例子(见下图)。有选项可以显示这个羊痘疮的氨基酸序列标签。

Ularcirc结视图选项卡显示潜在的ORF Slc8a1内

(#无花果:HG38Slc8a1_ORF) Ularcirc结视图选项卡显示潜在的ORF Slc8a1内

微rna结合位点分析Ularcirc可以分析预测circRNA序列。默认Ularcirc寻找互补的7元circRNA microrna的种子序列存在。有选项来增加或descrease microrna的种子的定义在一个下拉菜单。Ularcirc默认情况下只会显示microrna的绑定网站发现至少两倍。这个阈值也可以修改通过下拉菜单如下图所示。

Ularcirc结视图选项卡显示潜在的microrna的结合位点,在Slc8a1驻留

(#无花果:HG38Slc8a1_miRNA) Ularcirc结视图选项卡显示潜在的microrna的结合位点,在Slc8a1驻留

5会话信息- - - - - - - - - - - -

sessionInfo ()
# # R版本4.2.0 RC (2022-04-21 r82226) # #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 20.04.4 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.16 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.16 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_GB LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # #[1]统计图形grDevices跑龙套数据集方法基础# # # #其他附加包:# # [1]knitr_1.39 BiocStyle_2.25.0 # # # #通过加载一个名称空间(而不是附加):# # [1]bookdown_0.26 digest_0.6.29 R6_2.5.1 # # [4] jsonlite_1.8.0 magrittr_2.0.3 evaluate_0.15 # # [7] highr_0.9 stringi_1.7.6 rlang_1.0.2 # # [10] cli_3.3.0 jquerylib_0.1.4 bslib_0.3.1 # # [13] rmarkdown_2.14 tools_4.2.0 stringr_1.4.0 # # [16] xfun_0.30 yaml_2.3.5 fastmap_1.1.0 # # [19] compiler_4.2.0 BiocManager_1.30.17 htmltools_0.5.2 # # [22] sass_0.4.1