为tximport示例输出文件

这个包提供了一组数据输出文件上运行各种记录丰富的量词数量6样本GEUVADIS项目。中包含的文件本月/ extdata目录中。

引文GEUVADIS项目是:

Lappalainen, et al .,“转录组和基因组测序揭示功能变异在人类”,自然501,506 - 511(2013年9月26日)doi: 10.1038 / nature12531

这个描述的目的是对细节的软件运行的版本,和什么电话。

样本信息和量化文件

一个小文件,samples.txt包含在本月/ extdata目录:

dir < -系统。文件(“extdata”,包=“tximportData”) < - read.table样品(file.path (dir,“samples.txt”),头= TRUE)样本
# #流行中心化验样本实验运行# # 1 TSI UNIGE NA20503.1。M_111124_5 ERS185497 ERX163094 ERR188297 # # 2 TSI UNIGE NA20504.1。M_111124_7 ERS185242 ERX162972 ERR188088 # # 3 TSI UNIGE NA20505.1。M_111124_6 ERS185048 ERX163009 ERR188329 # # 4 TSI UNIGE NA20507.1。M_111124_7 ERS185412 ERX163158 ERR188288 # # 5 TSI UNIGE NA20508.1。M_111124_2 ERS185362 ERX163159 ERR188021 # # 6 TSI UNIGE NA20514.1。M_111124_4 ERS185217 ERX163062 ERR188356

进一步的细节中可以找到一个更扩展表:

样本。ext < - read.delim (file.path (dir,“samples_extended.txt”),头= TRUE) colnames (samples.ext)
# #[1]”来源。“# #”[2]Comment.ENA_SAMPLE。”## [3] "Characteristics.Organism." ## [4] "Term.Source.REF" ## [5] "Term.Accession.Number" ## [6] "Characteristics.Strain." ## [7] "Characteristics.population." ## [8] "Comment.1000g.Phase1.Genotypes." ## [9] "Protocol.REF" ## [10] "Protocol.REF.1" ## [11] "Extract.Name" ## [12] "Comment.LIBRARY_SELECTION." ## [13] "Comment.LIBRARY_SOURCE." ## [14] "Comment.SEQUENCE_LENGTH." ## [15] "Comment.LIBRARY_STRATEGY." ## [16] "Comment.LIBRARY_LAYOUT." ## [17] "Comment.NOMINAL_LENGTH." ## [18] "Comment.NOMINAL_SDEV." ## [19] "Protocol.REF.2" ## [20] "Performer" ## [21] "Assay.Name" ## [22] "Technology.Type" ## [23] "Comment.ENA_EXPERIMENT." ## [24] "Comment.READ_INDEX_1_BASE_COORD." ## [25] "Protocol.REF.3" ## [26] "Scan.Name" ## [27] "Comment.SUBMITTED_FILE_NAME." ## [28] "Comment.ENA_RUN." ## [29] "Comment.FASTQ_URI." ## [30] "Protocol.REF.4" ## [31] "Derived.Array.Data.File" ## [32] "Comment..Derived.ArrayExpress.FTP.file." ## [33] "Factor.Value.population." ## [34] "Factor.Value.laboratory." ## [35] "date"

量化输出本身可以在子目录中找到:

list.files (dir)
# #[1]“小鲑鱼”# #“袖扣”[3]“kallisto”“kallisto_boot”# # [5]“refseq”“rsem”# #[7]“旗鱼”“鲑鱼”# # [9]“salmon_dm”“salmon_ec”# # [11]“salmon_gibbs”样本。txt samples_extended“# # [13]”。txt”“tx2gene。csv tx2gene.ensembl.v87“# # [15]”。csv”“tx2gene.gencode.v27。csv tx2gene_alevin.tsv“# # [17]
list.files (file.path (dir,“袖扣”))
# #[1]”亚型。attr_table”“亚型。count_table isoforms.fpkm_table”
list.files (file.path (dir,“rsem”、“ERR188021”))
# # ERR188021.genes.results [1]”。广州ERR188021.isoforms.results.gz”
list.files (file.path (dir,“kallisto”、“ERR188021”))
# #[1]”丰富。h5”“abundance.tsv。广州run_info.json”
list.files (file.path (dir,“三文鱼”,“ERR188021”))
# # [1]cmd_info aux_info”。json " libParams lib_format_counts“# # [4]”。json”“日志”“quant.sf.gz”
list.files (file.path (dir,旗鱼,“ERR188021”))
# # cmd_info [1]”。json quant.sf”
list.files (file.path (dir,“小鲑鱼”))
# # [1]“mouse1_LPS2_50”“mouse1_unst_50”“mouse1_unst_50_boot”

基因组和基因注释文件

Illumina公司iGenomes:人类基因组注释和下载Illumina公司iGenomes的UCSC hg19版本。人类基因组FASTA文件的使用序列/ WholeGenomeFasta目录和基因注释GTF文件使用genes.gtf文件注释/基因目录中。这个GTF文件包含RefSeq记录id和UCSC的基因名称。的注释目录包含一个固定文件的文本:

注释的内容目录下载来自加州大学:2014年6月2日。

genes.gtf文件过滤只包括染色体22页,X, Y,和M。

袖扣

Tophat2版本)与调用运行:

20大礼帽- p - o tophat_out / f基因组fastq / f \ _1.fastq美元。广州fastq / $ f \ _2.fastq.gz;

袖扣2.2.1版本运行调用:

cuffquant 40美元- b - p基因族群- o袖扣/ $ f基因。gtf tophat_out / f / accepted_hits.bam美元;

Cuffnorm运行调用:

cuffnorm基因。gtf - o袖扣/ \袖扣/ ERR188297 /丰度。cxb \袖扣/ ERR188088 /丰度。cxb \袖扣/ ERR188329 /丰度。cxb \袖扣/ ERR188288 /丰度。cxb \袖扣/ ERR188021 /丰度。cxb \袖扣/ ERR188356 / abundances.cxb

RSEM

1.2.31 RSEM版本运行调用:

rsem-calculate-expression——num-threads 6——bowtie2 paired-end < (zcat fastq / $ f \ _1.fastq.gz) < (zcat fastq / $ f \ _2.fastq.gz)指数rsem / f /美元f

kallisto

0.43.1 kallisto版本运行调用:

kallisto量化——偏见我指数6 - o - t kallisto / f fastq / f \ _1.fastq美元。广州fastq / $ f \ _2.fastq.gz

的文件kallisto_boot目录,kallisto 0.43.0运行版本,对运用成绩单(v87)量化Homo_sapiens.GRCh38.cdna.all.fa使用电话:

kallisto定量-指数6 - t - b 5 - o kallisto_0.43.0 / f fastq / f \ _1.fastq美元。广州fastq / $ f \ _2.fastq.gz

大马哈鱼

鲑鱼版本0.8.2运行调用:

鲑鱼定量- p 6——gcBias我指数- l IU 1 fastq / f \ _1.fastq美元。广州2 fastq / f \ _2.fastq美元。广州- o鲑鱼/ $ f

的文件salmon_gibbs目录,鲑鱼0.8.1运行版本,对运用成绩单(v87)量化Homo_sapiens.GRCh38.cdna.all.fa使用电话:

鲑鱼定量- p 6——numGibbsSamples 5 -指数- l IU 1 fastq / f \ _1.fastq美元。广州2 fastq / f \ _2.fastq美元。广州- o salmon_gibbs / $ f

的文件salmon_dm目录(黑腹果蝇)、鲑鱼版本0.10.2运行(一旦只有cDNA,一旦结合的互补与非编码记录):

鲑鱼定量- l - gcBias——seqBias posBias我Drosophila_melanogaster.BDGP6.cdna.v92_salmon_0.10.2 - o SRR1197474 1 SRR1197474_1.fastq。广州2 SRR1197474_2.fastq.gz

的文件salmon_ec目录,鲑鱼1.1.0版本运行——dumpEq文件从Tasic, B。,姚明,Z。、Graybuck L.T.et al。“共同和不同的转录组细胞类型在皮层区域”(2018)doi: 10.1038 / s41586 - 018 - 0654 - 5这些文件被珀斯吉利·生成。原始数据是来自:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA476008&o=acc_s%3Aa

小鲑鱼

两个小的例子小鲑鱼输出(50个细胞)是由珀斯吉利·。数据集的一个子集,Hagaiet al。“基因表达变化在细胞形状和物种先天免疫”(2018)doi: 10.1038 / s41586 - 018 - 0657 - 2鲑鱼/小鲑鱼版本1.6.0运行,使用tx2gene数据包含在包下tx2gene_alevin.tsv

旗鱼

旗鱼版本0.9.0运行调用:

旗鱼定量- p 10——biasCorrect我sailfish_0.9.0 / index - l IU 1 < (zcat fastq / $ f \ _1.fastq.gz) 2 < (zcat fastq / $ f \ _2.fastq.gz) - o sailfish_0.9.0 / $ f

会话信息

sessionInfo ()
# # R版本4.2.0 RC (2022-04-19 r82224) # #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 20.04.4 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.15 - bioc / R / lib / libRblas。所以# # LAPACK: /home/biocbuild/bbs - 3.15 - bioc / R / lib / libRlapack。# # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_GB LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # #[1]统计图形grDevices跑龙套基地# # # #加载数据集方法通过名称空间(而不是附加):# # [1]compiler_4.2.0 magrittr_2.0.3 tools_4.2.0 stringi_1.7.6 knitr_1.39 # # [6] stringr_1.4.0 xfun_0.30 evaluate_0.15