自动RNA-Seq礼物/缺失基因表达调用生成

BgeeCall是一家集功能,使用Bgee专家来创建RNA-Seq基因表达存在/没有电话。

如果你发现一个错误或有任何问题BgeeCall请写一个错误在我们的报告GitHub问题经理。

现在/没有调用是如何生成的

在Bgee RNA-Seq调用是使用一个阈值生成特定于每个RNA-Seq图书馆,计算使用读取映射到参考基因间区域。这是低于阈值与更通常使用一个任意一个基因并不视为表达(e。g log2 (TPM) = 1)。

Bgee数据库

Bgee是一个数据库来检索和比较在多个动物物种和基因表达模式产生来自多个数据类型(RNA-Seq, Affymetrix、原位杂交和EST数据)。它尤其是集成了29种RNA-Seq库。

参考基因间区域

参考基因间区域中定义Bgee RNA-Seq管道。候选基因间区域使用基因注释定义的数据。对于每一个物种,在所有可用的库,读取映射到这些基因间区域kallisto,以及基因。这种“基因间表达”deconvoluted区分参考基因间与非注释的基因,具有更高的表达式。参考基因间区域被定义为基因间区域在所有RNA-Seq库表达水平较低,相对于基因。这一步不考虑区域允许错误地认为是基因间因为潜在的基因注释基因间的质量问题。有关更多信息,请参考Bgee RNA-Seq管道。

阈值的礼物/缺席

BgeeCall管道允许下载参考基因间区域造成Bgee团队的专业知识。此外BgeeCall允许使用这些参考基因间区域自动生成呼吁自己的RNA-Seq图书馆只要物种集成Bgee。

默认情况下BgeeCall计算pValue定义调用。默认情况下基因是考虑现在如果pValue低于或等于0.05。更多的信息在这个pValue和潜在的其他方法生成调用是可用的在这里

安装

如果(!requireNamespace(“BiocManager”,静静地=真正的))install.packages(“BiocManager”)::安装(“BgeeCall”)

如何使用BgeeCall包吗

BgeeCall高度可调。不犹豫地看看参考手册的精确descripton所有插槽4主要S4类(AbundanceMetadata、KallistoMetadata BgeeMetadata和UserMetadata)或所有可用的函数。BgeeCall需要kallisto运行。如果你没有kallisto安装你会发现更多的信息如何安装它在这里

加载包

图书馆(BgeeCall)

快速启动

BgeeCall包很容易生成/缺失基因表达调用。代kallisto转录组指数可能需要大量的时间。作为这一步骤所需的时间取决于转录组的大小我们选择,作为一个例子,最小的转录组文件中所有物种上可用Bgee(秀丽隐杆线虫)。产生这些调用你将需要:

一个转录组
基因注释
你RNA-Seq fastq文件中读取

对于这个描述,我们创建了一个玩具fastq文件示例基于SRX099901 RNA-Seq库使用ShortReadR包

图书馆(“ShortRead”)48.000 #保持阅读FastqSampler(file.path(“absolute_path”,“/ SRX099901 / SRR350955.fastq.gz”),48000年)set.seed(1);SRR350955 < -收益率(取样器)writeFastq(对象=SRR350955,文件=file.path(“absolute_path”,“SRX099901_subset”,“SRR350955_subset.fastq.gz”),模式=“w”,完整的=假,压缩=真正的)

在这个示例中,我们使用了Bioconductor AnnotationHub加载转录组和基因注释但你可以加载他们从任何你想要的。

AnnotationHub::AnnotationHub()AnnotationHub::查询(啊,c(“运用”,“秀丽隐杆线虫”,“84”))ah_resources [[“AH50789”]]#删除MtDNA没有秀丽隐杆线虫基因组标记dropSeqlevels(annotation_object“MtDNA”,“粗”)rtracklayer::import.2bit(ah_resources [[“AH50453”]])

一旦你获得转录组,基因注释和RNA-Seq库,类的一个对象UserMetadata必须被创建。

#创建一个对象类UserMetadata和指定物种的ID新(“UserMetadata”,species_id =“6239”)#进口注释和转录组user_BgeeCall对象中#可以导入它们使用一个S4对象(农庄,DNAStringSet)或文件(gtf fasta)setAnnotationFromObject(annotation_object user_BgeeCall“WBcel235_84”)setTranscriptomeFromObject(transcriptome_object user_BgeeCall“WBcel235”)#提供RNA-Seq图书馆的目录路径setRNASeqLibPath(user_BgeeCall执行(“extdata”,“SRX099901_subset”,包=“BgeeCall”))

注意,在BgeeCall可以指定注释的源。默认的来源是运用,但gencode文件也可以使用,通过指定的属性在班上gtf_source UserMetadata。

就是这样…你可以运行代现在/缺失基因表达

generate_calls_workflow(userMetadata =user_BgeeCall)

# >查询Bgee获得基因间发布的信息……# >注意:进口的丰度。h5通常比的丰度。tsv ' # >阅读文件read_tsv # > 1 # >总结丰富# >总结计数# >总结长度# >注意:进口的丰度。h5通常比的丰度。tsv ' # >阅读文件read_tsv # > 1 # >总结丰富# >总结计数# >总结长度# >生成礼物/表达式调用使用pValuecutoff缺席

每个分析生成5文件并返回路径每其中之一。

calls_tsv_path:路径与TPM主tsv文件,统计,长度、生物型、类型和存在/缺乏总结在基因水平(或表达式转录水平如果是要求)

头(read.table(calls_output美元calls_tsv_path,头=真正的),n =5)# > id丰富计数长度zScore生物型类型# > 1 III_10079208_10080946 0 0 1560 < NA >基因间NA# > 2 III_1011875_1015179 0 0 3126 < NA >基因间NA# > 3 III_1016637_1020469 0 0 3654 < NA >基因间NA# > 4 III_10289112_10294636 0 0 5346 < NA >基因间NA# > 5 III_10311601_10314095 0 0 2316 < NA >基因间NA# > pValue电话# > 1 NA缺席# > 2 NA缺席3 # > NA缺席# > 4 NA缺席# > 5 NA缺席

cutoff_info_file_path:路径tsv总结分析包含基因的比例,蛋白质编码和基因间定义为表示。它还包含库ID和当前/ TPM缺席阈值

read.table(calls_output美元cutoff_info_file_path)# > V1 V2# > 1 libraryId SRX099901_subset# > 2 cutoffTPM 27.1747# > 3 proportionGenicPresent 17.8245677723828# > 4 numberGenicPresent 3928# > 5 numberGenic 22037# > 6 proportionCodingPresent 19.1128282877684# > 7 numberPresentCoding 3908# > 8 numberCoding 20447# > 9 proportionIntergenicPresent 0.0233808744447042# > 10 numberIntergenicPresent 1# > 11 numberIntergenic 4277# > 12 pValueCutoff 0.05# > 13 meanIntergenic 5.98186903584813# > 14 sdIntergenic 2.50920239407257

abundance_tsv:路径tsv kallisto定量输出文件

头(read.table(calls_output美元abundance_tsv,头=真正的),n =5)# > target_id长度eff_length est_counts tpm# > 1 Y110A7A。10 1787 1556.20 2 27.0993# > 2 F27C8.1 0.0000 1940 1761.00 03 # > F07C3.7 0.0000 1728 1549.00 0# > 4 F52H2.2 1739 13.8730 1519.92 - 1# > 5 T13A10.10a 0.0000 1734 1555.00 0

TPM_distribution_path:路径绘制在pdf reprensting TPM值的密度分布序列,蛋白质编码序列和基因间序列。灰色的线对应于TPM阈值用于生成/没有调用。

openPDF(calls_output美元TPM_distribution_path)

S4_slots_summary:路径tsv文件包含的摘要值用于最重要的时段三个S4类(UserMetadata, KallistoMetadata, BgeeMetadata)。

read.table(calls_output美元S4_slots_summary,头=真正的,9月=”\ t”)# > Slot.name# > 1 AbundanceMetadata@tool_name# > 2 AbundanceMetadata@txOut3 # > AbundanceMetadata@ignoreTxVersion# > 4 AbundanceMetadata@cutoff# > 5 AbundanceMetadata@read_size_kmer_threshold# > 6 BgeeMetadata@intergenic_release# > 7 UserMetadata@species_id# > 8 UserMetadata@reads_size# > 9 UserMetadata@rnaseq_lib_path# > 10 UserMetadata@transcriptome_name# > 11 UserMetadata@annotation_name# > 12 UserMetadata@simple_arborescence# > 13 output_dir# > Slot.value# > 1 kallisto# > 2错误3 # >假4 # > 0.055 # > 501.0 # > 6# > 7 623951 # > 8# > 9 / tmp / Rtmp9FKrcd / Rinst30f22c628fda39 BgeeCall / extdata / SRX099901_subset# > 10 WBcel235# > 11 WBcel235_84# > 12真的# > 13 / tmp / Rtmp9FKrcd / Rinst30f22c628fda39 BgeeCall / extdata intergenic_1.0 / all_results / SRX099901_subset

注意,在pValue方法(默认方法生成礼物/缺失基因表达调用)调用文件以及cutoff_info_file和TPM_distribution文件不包含扩展名的方法使用。另一方面,所有其他方法包含在文件名的方法的名字。

生成当前/没有要求多个RNA-Seq图书馆

你也力将感兴趣的生成/没有呼吁不同RNA-Seq库,可能在不同的物种,或使用的主要功能generate_presence_absence ()允许生成礼物/没有调用从UserMetadata对象也从一个数据帧或tsv文件根据函数的参数。请选择下面的三个参数:- userMetadata:允许生成礼物/没有要求一个使用类的一个对象userMetadata RNA-Seq库。
- userDataFrame:提供一个dataframe每一行对应一个礼物/没有调用的一代。它允许生成/没有调用不同的库,物种的转录组、基因组注释,等等- userFile:类似于userDataFrame除了tsv文件中存储的信息。这个文件的一个模板userMetadataTemplate.tsv可在包的根源。

列dataframe或tsv文件:

species_id: NCBI ID的物种。
run_ids: RNA-Seq图书馆的运行您希望使用生成的调用。允许生成表达式要求的一个子集的一个RNA-Seq库中描述生成呼吁RNA-Seq运行的一个子集。如果不感兴趣,这个选项,离开列是空的。
reads_size: RNA-Seq库的读取的大小。
rnaseq_lib_path:路径目录包含所有fastq为这个库生成的文件。这个目录可以只包含单头或paired-end运行运行。
转录组transcriptome_path:路径文件。
基因组注释annotation_path:路径文件。适用于GTF GFF3文件。
工作目录working_path:路径结果将存储的地方。使用相同的工作目录为同一物种的不同RNA-Seq库将允许重用以前生成的数据定制的转录组指数(转录组和参考基因间序列生成)。在默认情况下定义的工作路径getwd ()功能和对应的工作目录R会话。如果不感兴趣,这个选项,离开列是空的。
output_directory:两种结果和RNA-Seq库默认结果存储在同一个地方使用的价值working_path列。然而,这一列允许您定义一个不同的output_directory RNA-Seq结果。例如它允许您保存调用信息直接在RNA-Seq目录中。如果不感兴趣,这个选项,离开列是空的。

一旦文件已经填写可以生成表达式调用:

generate_calls_workflow(userFile =“path_to_your_file.tsv”)

Parallized代礼物/没有呼吁一个集群

BgeeCall已经实现所有你需要生成调用集群上如果它使用粘排队系统很多。在前一节中描述的相同的TSV文件将被用作输入。除了优化选择BgeeCall在您的计算机上运行时,它是可能的修改如何粘提交作业很多。更多的信息可以在部分修改粘的选择很多为了优化并行调用将生成2步骤。
\逐条列记{生成数据在物种水平(e。与基因间序列,g trancriptome kallisto索引)

要求每个RNA-Seq库生成表达式

#生成kallisto索引generate_slurm_indexes(userFile =“path_to_your_file.tsv”)#生成表达式调用generate_slurm_calls(userFile =“path_to_your_file.tsv”)

参考基因间序列

版本的参考基因间序列

不同版本的参考基因间序列是可用的。可以列出所有这些版本:

list_intergenic_release()# >下载发布信息的参考基因间序列……# >释放releaseDate FTPURL1.0 # > 1 2021-06-11 ftp://ftp.bgee.org/intergenic/1.0/0.2 # > 2 2019-02-07 ftp://ftp.bgee.org/intergenic/0.2/3 # > 0.1 2018-12-21 ftp://ftp.bgee.org/intergenic/0.1/# > 4社区2019-07-225 # >自定义2019-07-22# > referenceIntergenicFastaURL1 # > ftp://ftp.bgee.org/intergenic/1.0/ref_intergenic/SPECIES_ID_intergenic.fa.gz# > 2 ftp://ftp.bgee.org/intergenic/0.2/ref_intergenic/SPECIES_ID_intergenic.fa.gz3 # > ftp://ftp.bgee.org/intergenic/0.1/ref_intergenic/SPECIES_ID_intergenic.fa.gz# > 4# > 5# > minimumVersionBgeeCall# > 1 0.9.9# > 2 0.9.93 # > 0.9.9# > 4 1.1.0# > 5 1.1.0# >描述# > 1基因间区域用于生成Bgee 15。# > 2清洗基因间序列基于0.1版本(删除Ns超过100块和序列包含超过5%的Ns)。# > 3基因间区域用于生成Bgee 14。# > 4版本允许访问所有参考基因间序列生成的社区,而不是出现在Bgee。# > 5版本允许使用自己的FASTA参考基因间序列。当选择这个版本在UserMetadata@custom_intergenic_path BgeeCall将使用序列生成/没有调用。# > messageToUsers# > 1# > 2小心,这种基因间释放并没有被Bgee测试# > 3# > 4这些参考基因间序列并没有被Bgee生成。谨慎使用。# > 5你决定使用自己的参考基因间序列

然后可以选择创建一个特定的版本BgeeMetadata对象。总是使用setter方法setIntergenicRelease ()当改变现有的释放BgeeMetadata对象。

#创建BgeeMetadata对象和定义一个参考基因间的释放新(“BgeeMetadata”,intergenic_release =“0.1”)# >查询Bgee获得基因间发布的信息……#改变基因间释放你的BgeeMetadata对象的引用setIntergenicRelease(bgee“0.2”)# >重要:小心,这种基因间释放并没有被Bgee测试

默认情况下,参考基因间释放时使用BgeeMetadata对象是最后稳定创建一个由Bgee团队。

从Bgee核心参考基因间

核心参考基因间版本是由Bgee团队当很多新的RNA-Seq库手动策划了已经存在的物种和/或为新物种。这些版本是唯一版本号码(e。g“0.1”)。每一个版本包含参考基因间序列的物种列表。Bgee参考基因间序列生成使用Bgee团队专业知识。RNA-Seq图书馆手动策划健康和野生型。质量控制已经完成所有步骤的一代的这些序列。参考基因间序列从所有可能的选择(见基因间区域Bgee管道)。BgeeCall允许生成基因表达的电话Bgee参考基因间序列任何RNA-Seq库,只要这些序列生成的Bgee团队。tsv文件包含所有物种提供可用的参考基因间的当前版本在这里。这个文件还包含了一个列的数量描述RNA-Seq库用于生成参考每个物种的基因间序列。也有可能在R所有物种的Bgee参考基因间序列创建:

list_bgee_ref_intergenic_species(myBgeeMetadata =bgee)# > speciesId speciesName numberOfLibraries genomeVersion# > 1 9606 5026 GRCh38.p5智人# > 2 10090亩133 GRCm38.p4所支配# > 3 9544 90 MMUL1.0解剖# > 4 7955鲐67 GRCz10鱼类# > 5 8364非洲爪蟾蜍tropicalis 66 JGI4.2# > 6 6239 50 WBcel235线虫# > 7 9031背带吊裤带45 Galgal4# 36 Rnor_6.0 > 8 10116鼠形# 33 UMD3.1 > 9 9913牛# > 13616把19 monDom5# > 11 9258鸭嘴兽anatinus 17 OANA5# > 12 7240果蝇simulans 17 GCA_000259055.1# > 13 9598 15 CHIMP2.1.4黑猩猩# > 14 7237果蝇pseudoobscura 14 GCA_000001765.2# > 15 7227黑腹果蝇14 BDGP6# > 16 9593 13 gorGor3.1低地大猩猩# > 17 9597一12 CHIMP2.1.4# > 18 9823 10 Sscrofa10.2野猪# > 19 10141 Cavia porcellus 9 Felis_catus_6.2# > 20 9685家猫9 cavPor3# 21 7230果蝇mojavensis 8 EquCab2 ># > 22 9796科仕caballus 8 GCA_000005175.1# > 23 9986 Oryctolagus cuniculus 6 eriEur1# > 24 9615犬属6 CanFam3.1狼疮后裔# > 25 9365 Erinaceus europaeus 6 OryCun2.0# > 26 7244果蝇virilis 4 GCA_000005245.1# > 27 28377 4 AnoCar2.0安乐有害无益的# > 28 7217果蝇ananassae 4 GCA_000005975.1# 7245年> 29日果蝇yakuba 4 GCA_000005115.1

社区参考基因间

如果你想使用BgeeCall Bgee并不提供参考基因间序列的物种有可能创建它们自己和分享Bgee社区遵循的所有步骤本教程。不要忘记,RNA-Seq库是一个关键的生成精确的参考基因间序列。可能在R所有物种的参考基因间序列已经创建的社区使用以下代码

list_community_ref_intergenic_species()# > speciesId numberOfLibraries annotationVersion genomeVersion kallistoVersion# > 1 10036 15 MesAur1.0 MesAur1.0 0.46.0# > 2 13686 243 Si_gnG Si_gnG 0.44.0# > url1 # > https://zenodo.org/api/files/f46c7de0-d9a5-4ffd-a30e-4b08121ba446/ref_intergenic.fa.gz# > 2 https://zenodo.org/api/files/5492ff2f - 91 - a3 - 4101 - 8分会- 78 b8f8625cc6/ref_intergenic.fa.gz

如果参考基因间序列的物种只能来自社区的释放感兴趣然后可以使用该版本生成你目前/没有电话

#创建一个BgeeMetadata对象使用社区发布新(“BgeeMetadata”,intergenic_release =“社区”)generate_calls_workflow(bgeeMetadata =bgee,userMetadata =user_BgeeCall)

你自己参考基因间

如果您生成自己的参考基因间序列follwowing这tuorial但没有分享的时刻(不要忘记做…),也可以使用BgeeCall包含序列的一个文件。在这种情况下,你需要选择自定义发布和提供文件路径包含参考基因间序列:

新(“BgeeMetadata”,intergenic_release =“自定义”)@custom_intergenic_path =“路径/ /定制/ ref_intergenic.fa.gz”generate_calls_workflow(bgeeMetadata =bgee,userMetadata =user_BgeeCall)

生成当前/没有电话在转录水平(测试版)

kallisto生成系统及在转录水平。Bgee管道我们总结这个表达式在基因水平来计算我们目前/没有电话。在BgeeCall现在可以生成/没有调用在转录水平。小心使用此功能时,因为它没有被测试。产生这样的呼吁你只需要创建一个类的对象KallistoMetadata和编辑一个属性的值

新(“KallistoMetadata”,txOut =真正的)generate_calls_workflow(myAbundanceMetadata =kallisto,userMetadata =user_BgeeCall)

如何使用kallisto格格不入

下载或重用自己的kallisto

默认情况下BgeeCall假设kallisto安装。如果kallisto不是安装在你的电脑上你可以:

让BgeeCall自动下载kallisto的0.45版本。BgeeCall将用它来量化丰富的记录。它只会使用这个包,不影响你的潜力kallisto的现有版本。

新(“KallistoMetadata”,download_kallisto =真正的)generate_calls_workflow(myAbundanceMetadata =kallisto,userMetadata =user_BgeeCall)

你可以下载并安装kallisto遵循官方网站上的说明:http://pachterlab.github.io/kallisto/download

编辑kallisto定量属性

默认情况下kallisto运行相同的参数,我们使用RNA-Seq Bgee管道:

单头:“- t 180单- l - s 30偏见”
成对的结束:“1 - t偏见”

可以修改它们,用你最喜欢的kallisto参数

新(“KallistoMetadata”,single_end_parameters =“30 - t 3——150单- l - s”,pair_end_parameters =“2 - t - b——种子36”)generate_calls_workflow(myAbundanceMetadata =kallisto,userMetadata =user_BgeeCall)

选择两公里大小

默认情况下2索引2可以使用不同的公里大小BgeeCall默认公里大小的kallisto(31)用于库读取长度等于或大于50个基点。15公里大小用于库读取长度小于50个基点。我们决定不允许调整kmers大小因为索引的生成是耗时和索引生成需要更多时间用小kmers大小(< 15 bp)。然而可以修改读取长度允许的阈值选择违约和小公里大小。

#库读取小于70 bp将使用索引= 15公里大小新(“KallistoMetadata”,read_size_kmer_threshold =70年)generate_calls_workflow(myAbundanceMetadata =kallisto,userMetadata =user_BgeeCall)

注意,为图书馆阅读长度未指定的默认公里大小将使用(31)。

生成呼吁RNA-Seq运行的一个子集

默认情况下基因表达调用使用的所有运行生成RNA-Seq图书馆。可以只选择一个子集的运行。

# RNA-Seq从RNA-Seq运行SRR350955_subsetof图书馆将用于生成调用setRunIds(user_BgeeCallc(“SRR350955_subset”))run_from_object(myUserMetadata =user_BgeeCall)

运行时选择ID, ID和名称输出目录结合图书馆所有选定运行IDs。在我们的示例表达式调用将存储在目录中SRX099901_SRR350955_subset。

修改/没有阈值

默认pValue方法

在默认情况下使用pValue BgeeCall生成调用的方法。为了生成每个基因pValue id我们计算数值测量,z分数,描述价值关系的意思。z分数衡量的标准进行偏离referent的意思是,在这种情况下,使用一组参考基因间区域,按照下面的公式:

\ [zScore = \压裂{log2 (tpmValue)——意味着(log2 (IntergenicTpmValues))} {sd (log2 (IntergenicTpmValues))} \]从z分数值,每个基因id,我们计算一个分布pValues使用以下公式:

\ [pValue = pnorm (zscore低。尾= FALSE) \]基因是考虑现在如果pValue低于或等于0.05。

默认情况下所有基因的丰度高于0(我。e有至少一个读取映射到成绩单)和pValue低于或等于0.05作为礼物。其他基因被称为缺席。可以修改pValue截止。编辑此值时要小心,因为它有一个很大的影响你现在的缺席。

新(“KallistoMetadata”,截止=0.1)

基因间的阈值方法

表达式调用也可以使用一个阈值生成基因间序列称为礼物。这种方法被用来生成Bgee表达式调用直到释放14的公式:

\[\压裂{比例现在\ \ \基因间的引用\}\ \ \蛋白质编码\{比例呈现}= 0.05 \]有可能改变这一比率的截断值。

#使用基因间的方法用默认截止率0.05新(“KallistoMetadata”,cutoff_type =“基因间”)#使用基因间的方法与截止率0.01新(“KallistoMetadata”,cutoff_type =“基因间”,截止=0.01)

qValue阈值方法

使用qValue表达式调用也可以生成方法。在这种方法中,我们为每个密度区域进行线性插值,基因和参考基因间,紧随其后的是数值积分。然后为每一个独特的丰度值(TPM)集成和整个地区的规模。之后,每个基因的记者qValue id是计算公式:

\ [qValue = \压裂{基因间}{基因间+基因}\]# # #收集统计信息

BgeeCall用户能够收集所有提供的统计数据调用不同的方法表达基因在个体图书馆。提供这个信息表,所有cutoff_info_file_从每个图书馆和每个方法用于检索相应信息。

get_summary_stats(userFile =“路径/ / file.tsv”,outDir =“路径/ / output_directory”)

运行BgeeCall在安静模式

默认情况下BgeeCall写输出消息的所有部分的工作流程。可以不写任何消息通过改变槽详细UserMetadata对象的值。默认情况下,这个值设置为true,但可以改变它为假这条线:

@详细< -假

不重新运行的部分管道

代的礼物/缺席表达式调用中完成几个步骤。有可能迫使overwritting现有中介文件:- overwrite_index: KallistoMetadata槽的对象。的值必须是一个逻辑。如果假(默认),索引生成步骤跳过如果一个索引已经存在。如果这是真的,kallisto指数将生成即使一个索引已经存在。- overwrite_quant: KallistoMetadata槽的对象。的值必须是一个逻辑。如果假(默认),kallisto量化步骤跳过如果量化文件已经存在。如果这是真的,kallisto量化步骤将运行即使量化文件已经存在。- overwrite_calls: KallistoMetadata槽的对象。 The value has to be a logical. If FALSE, the generation of present/absent calls is skiped if an index already exists. If TRUE (default), the generation of present/absent calls will be run even if calls were already generated.

忽略记录版本

它可以发生调用生成使用转录组或注释包含成绩单版本(数字点后记录id e。g ENSMUST00000082908.2)和注释或转录组没有成绩单版本。这是一个问题,当使用tximport变换丰富在转录水平在基因水平和丰富导致一个错误。

错误。local(对象,…):没有一个量化的成绩单tx2gene文件出现在第一列中。查看你都使用相同的注释。例子id(文件):[,……]实例id (tx2gene): [ENSMUST00000193812、ENSMUST00000082908 ENSMUST00000192857,…这有时会(不总是)是固定的使用“ignoreTxVersion”或“ignoreAfterBar”。电话:。打电话给……tximport - > summarizeToGene - > summarizeToGene - >。local停止执行

为了解决这个错误tximport实现一个选项称为ignoreTxVersion删除记录版本从转录组和注释。可以使用这个选项的值通过修改槽ignoreTxVersion KallistoMetadata (S4的默认错误)类。

新(“KallistoMetadata”,ignoreTxVersion =真正的)

用一个简单的树状目录生成调用

在默认情况下创建的树状目录BgeeCall是尽可能简单。结果使用路径将被创建working_path / intergenic_release all_results / libraryId。生成当前/缺失基因表达要求同一RNA-Seq库使用不同的转录组或注释版本使用这个树状将覆盖以前的结果。的UserMetadata类有一个属性simple_arborescence这是真正的默认情况下。如果假,complexe树状目录包含注释和转录组的名称文件将被创建。这个复杂的树状将允许生成礼物/没有要求图书馆使用不同版本的转录组或annotaiton相同。

setSimpleArborescence(userObject =user_BgeeCall,simpleArborescence =假)run_from_object(myUserMetadata =user_BgeeCall)

改变目录保存的电话

用于保存当前默认目录/没有调用的子目录UserMetadata@working_path。但是可以选择您想要调用的目录生成。

setOutputDir(user_BgeeCall“路径/ /电话/ / /图书馆/”)

这个输出目录只包含结果生成RNA-Seq图书馆的水平。所有数据生成在物种水平仍然存储使用UserMetadata@working_path。他们仍然可以被重用从其他库生成调用相同的物种。

修改粘的选择很多

两个函数可用于运行BgeeCall粘队列系统很多。下面描述的参数可用于。

就业人数

充分利用集群是并行处理你的工作。默认情况下10个工作同时运行。可以修改这个数量的参数节点。

50 #运行并行工作generate_slurm_indexes(userFile =“路径/ / file.tsv”,节点=50)

不提交工作吗

为了能够检查文件自动生成运行的工作可以生成这些文件没有提交你们的工作。创建文件的更多信息可以在装饰图案的https://cran.r-project.org/web/packages/rslurm/vignettes/rslurm.html)(rslurm包)。

#创建临时文件,但不提交工作generate_slurm_indexes(userFile =“路径/ / file.tsv”,提交=假)

修改粘的选择很多

会自动创建一个bash scirpt运行工作。这个脚本包含默认粘选项很多(数组、cpus-per-task作业名、输出)。所有其他粘选项被sbatch很多命令可以更新b创建一个命名列表名称对应于长名字的选项(e。g不使用“p”但“分区”)。

#添加粘选项很多sbatch脚本列表(账户=“账户”,时间=“2:00:00”,分区=“分区”,mem =“30 g”)generate_slurm_indexes(userFile =“路径/ / file.tsv”,slurm_options =slurm_options_index)

将模块添加到您的环境

集群在一些节目不默认加载。模块参数允许加载sbatch脚本中添加一行。这个选项被添加模块实现,但有可能被用来sbatch脚本中添加任何自定义代码。

#负载R 3.6.1和kallisto在集群环境中,软件必须手动加载c(“模块添加R / 3.6.1;”,“模块添加kallisto;”)generate_slurm_indexes(userFile =“路径/ / file.tsv”,模块=模块)

修改BgeeCall对象

默认情况下除了列的tsv文件中的所有其他插槽3 BgeeCall类将使用默认值。为了优化这些参数可以创建对象并将它们传递到粘功能很多。在生成这些对象时必须保持相同的名称如以下示例。

#创建BgeeCall对象和使用它们来生成索引新(“KallistoMetadata”,download_kallisto =真正的)新(“UserMetadata”,working_path =“/工作/ dir /道路/”)新(“BgeeMetadata”,intergenic_release =“0.1”)generate_slurm_indexes(userFile =“路径/ / file.tsv”,kallistoMetadata =kallistoMetadata,bgeeMetadata =bgeeMetadata,userMetadata =userMetadata)

自动RNA-Seq礼物/缺失基因表达调用生成

朱利安Wollbrett,莎拉丰塞卡科斯塔Marc Robinson-Rechavi弗雷德里克·巴斯蒂安·

2022-05-15

现在/没有调用是如何生成的

Bgee数据库

参考基因间区域

阈值的礼物/缺席

安装

如何使用BgeeCall包吗

加载包

快速启动

生成当前/没有要求多个RNA-Seq图书馆

Parallized代礼物/没有呼吁一个集群

参考基因间序列

版本的参考基因间序列

从Bgee核心参考基因间

社区参考基因间

你自己参考基因间

生成当前/没有电话在转录水平(测试版)

如何使用kallisto格格不入

下载或重用自己的kallisto

编辑kallisto定量属性

选择两公里大小

生成呼吁RNA-Seq运行的一个子集

修改/没有阈值

默认pValue方法

基因间的阈值方法

qValue阈值方法

运行BgeeCall在安静模式

不重新运行的部分管道

忽略记录版本

用一个简单的树状目录生成调用

改变目录保存的电话

修改粘的选择很多

就业人数

不提交工作吗

修改粘的选择很多

将模块添加到您的环境

修改BgeeCall对象

合并多个库

参数和用户文件执行合并