1引用

如果你使用MungeSumstats包装，请注明

Murphy等人。MungeSumstats:一个Bioconductor包，用于许多GWAS汇总统计的标准化和质量控制。

2概述

的MungeSumstats软件包旨在促进我们在《自然-遗传学》论文中使用的GWAS汇总统计的标准化。¹

这个包被设计用来处理GWAS社区输出文件缺乏标准化的问题。现在有一个小组已经手动标准化了许多GWAS:IEU GWAS数据库的接口而且gwasvcf但由于许多GWAS仍然是封闭访问的，这些存储库并不是包罗一切。

的GWAS-Download项目整理了200多个GWAS的汇总统计数据。该存储库已被用于识别最常见的格式，所有这些格式都可以进行标准化MungeSumstats。

此外，还有一个新兴的VCF格式标准，用于包含多个有用的相关R包的摘要统计文件，例如vcfR。然而，目前还没有方法将VCF格式转换为与旧方法相匹配的标准化格式。

的MungeSumstats包标准化了VCF和最常见的汇总统计文件格式，以支持下游集成和分析。

MungeSumstats还提供全面的质量控制(QC)步骤，这是下游分析的重要先决条件，如联动不平衡得分回归(LDSC)和MAGMA。

此外,MungeSumstats在标准台式计算机上，所有重新格式化和质量控制检查在几分钟内完成，用于500k snp的GWAS汇总统计。可以通过增加线程数(nThread)来进一步提高此速度data.table使用。

目前MungeSumstats仅适用于来自人类的数据，因为它使用了基于人类的基因组参考。

3.目的

MungeSumstats将确保所有用于分析的基本列都存在并且语法正确。通常，摘要统计文件包括(但不限于)以下列:

SNP: SNP ID (rs IDs)
CHR:染色体数
BP:碱基对位置
A1:参考等位基因
A2:替代等位基因
Z: Z分数
BETA:相对于替代等位基因的效应大小估计
P: SNP未经调整的P值
SE:标准误差
N:样本量
INFO:归责信息得分
FRQ: SNP的次要/效应等位基因频率(MAF/EAF)

MungeSumstats使用映射文件推断输入的列名(运行数据(“sumstatsColHeaders”)查看这些)。在撰写本文时，这个映射文件比任何其他公开可用的munging工具都要全面得多，其中包含200多个独特的映射。但是，如果您的列标题缺失，或者您想要更改映射，您可以通过传递您自己的映射文件(请参阅format_sumstats (mapping_file)）.

MungeSumstats提供无与伦比的质量控制水平，以确保，例如，一致性的等位基因分配和影响的方向。运行的测试MungeSumstats包括:

检查VCF格式
检查制表符，空格或逗号分隔，压缩，csv或tsv文件
检查头名称的同义词
在GWAS中检查多个模型或特征
检查SNP ID的一致性-没有rs/缺失rs/chr:bp的混合
在一列中检查CHR:BP:A2:A1
在一列中检查CHR:BP
在一列中检查A1/A2
检查CHR和/或BP是否缺失(从参考基因组推断)
检查SNP ID是否缺失(从参考基因组推断)
检查A1和/或A2是否缺失(从参考基因组推断)
检查重要列是否存在(SNP,CHR,BP,P,A1,A2)
检查一个有符号/效果列(Z,OR,BETA,LOG_ODDS,SIGNED_SUMSTAT)
检查缺失的数据
检查重复的列
检查小p值(低于5e-324)
检查N列是否为整数
检查N大于5倍标准发展加上平均值的snp
检查snp是否为RS ID
检查SNP ID格式的一致性
根据SNP ID检查重复的行
根据碱基对位置检查重复的行
检查参考基因组的snp。使用CHR和BP修正未发现的SNP id(从参考基因组推断)
检查INFO分数
检查FRQ值
检查FRQ为小等位基因频率(MAF)
检查snp的标准误差(SE)是否为正
检查snp的效果列(如BETA)不等于0
检查链歧义snp
检查非双等位基因snp(从参考基因组推断)
检查等位基因翻转
检查染色体X, Y和线粒体SNPs (MT)
检查Z分数(Z)，如果缺失，则进行归因
检查是否有N，如果缺少则进行归因
检查输出格式是否LDSC就绪
检查输出格式是否IEU OpenGWAS就绪
如有必要，检查并执行所需参考基因组的提升
检查sumstats中的indels，如果找到就删除它们(默认不运行)

用户可以指定对他们的数据执行哪些检查。一个请注意关于等位基因翻转检查:MungeSumstats推断效果等位基因将永远是A2等位基因，这就是所做的方法我是VCF这里也采用了这种方法。这个推断首先来自输入文件的列标题，然而，等位基因翻转检查通过比较A1(应该是参考等位基因)和参考基因组来确保这一点。如果一个SNP的A1 DNA碱基与参考基因组不匹配，但它与A2(应该是替代等位基因)匹配，等位基因将与效应信息一起翻转(例如Beta，比值比，签名汇总统计，FRQ, z分数*)。

*-默认情况下，z得分是根据效应大小而不是p值计算的，因此会被翻转。这可以由用户更改。

如果测试失败，将通知用户，如果可能的话，将更正输入。上面检查的QC步骤也可以调整，以适应用户的分析，见MungeSumstats: format_sumstats。

MungeSumstats可以处理VCF, txt, tsv, csv文件类型或.gz/。这些文件类型的BGZ版本。该包还为用户提供了将重新格式化的文件导出为制表符分隔的VCF或R本机对象(如数据)的灵活性。表，GRanges或VRanges对象。输出也可以在LDSC准备好了格式，这意味着文件可以直接馈送到LDSC而不需要额外的munging。

4数据

的MungeSumstats包包含GWAS汇总统计文件的小子集。首先，关于Okbay等人的教育程度，2016:PMID: 27898078 PMCID: PMC5509058 DOI: 10.1038/ng1216-1587b。

其次，来自ieu open GWAS项目的有关GWAS肌萎缩性侧索硬化症的VCF文件(VCFv4.2)。数据集:ebi-a-GCST005647:https://gwas.mrcieu.ac.uk/datasets/ebi-a-GCST005647/

这些数据集将被用来展示MungeSumstats功能。

5运行MungeSumstats

MungeSumstats可在Bioconductor上使用。要在Bioconductor上安装软件包，请运行以下代码行:

if (!require("BiocManager")) install.packages("BiocManager")

安装完成后，加载包:

库(MungeSumstats)

要标准化汇总统计的文件格式，只需调用format_sumstats ()将路径传递给汇总统计文件，或直接将汇总统计作为数据框架或数据表传递。您可以指定GWAS中使用的基因组构建(GRCh37或GRCh38)，或者默认情况下，从数据推断基因组构建。的reference genome is used for multiple checks like deriving missing data such SNP/BP/CHR/A1/A2 and for QC steps like removing non-biallelic SNPs, strand-ambiguous SNPs or ensuring correct allele and direction of SNP effects. The path to the reformatted summary statistics file can be returned by the function call, the user can specify a location to save the file or the user can return an R native object for the data: data.table, VRanges or GRanges object.

注意，对于请求的一些检查MungeSumstats使用参考基因组。如果您感兴趣的GWAS汇总统计文件涉及GRCh38，您将需要安装SNPlocs.Hsapiens.dbSNP144.GRCh38而且BSgenome.Hsapiens.NCBI.GRCh38来自Bioconductor的如下信息:

BiocManager:安装(“SNPlocs.Hsapiens.dbSNP144.GRCh38”)BiocManager::安装(“BSgenome.Hsapiens.NCBI.GRCh38”)

如果您感兴趣的GWAS汇总统计文件涉及GRCh37，您将需要安装SNPlocs.Hsapiens.dbSNP144.GRCh37而且BSgenome.Hsapiens.1000genomes.hs37d5来自Bioconductor的如下信息:

BiocManager:安装(“SNPlocs.Hsapiens.dbSNP144.GRCh37”)BiocManager::安装(“BSgenome.Hsapiens.1000genomes.hs37d5”)

这些可能需要一些时间来安装，并且不包含在包中，因为一些用户可能只需要其中一个GRCh37/GRCh38。

Okbay GWAS总结统计文件被保存为包的外部数据文件夹中的文本文档，因此我们可以直接将文件路径传递给它MungeSumstats。

请注意—默认情况下，格式化结果将保存到tempdir ()。这意味着在结束R会话时，如果没有复制到本地文件路径，将删除所有格式化的摘要统计信息。否则，要保持格式化的摘要统计信息，请更改save_path(如。file.path('。/格式化”,basename(路径)))，或确保在处理后将文件复制到其他地方(例如:文件。复制(save_path”。/格式”)。

eduAttainOkbayPth <- system.file("extdata"，" eduattainokbaybay .txt"， package="MungeSumstats") reformatting <- MungeSumstats::format_sumstats(path=eduAttainOkbayPth, ref_genome="GRCh37")

## ## ## ******:: 请注意 ::****** ## - 格式化结果将保存到“tempdir()的默认。## -这意味着所有格式化的摘要统计信息将在R会话结束时被删除。## -要保持格式化的摘要统计，更改' save_path '(例如:' save_path=file.path('./格式化'，basename(path)) ')，或者确保在处理后将文件复制到其他地方(例如:的文件。复制(save_path”。/格式化)。## ********************

##格式化的汇总统计数据将保存到==> /tmp/RtmpQmARMJ/fileb60d36e58702.tsv.gz

导入表格文件:/tmp/RtmpUHkp6t/Rinstb4e3a7bd3e6fb/MungeSumstats/extdata/eduAttainOkbay.txt

##检查空列。

##标准化列标题。

第一行汇总统计文件:

## MarkerName CHR POS A1 A2 EAF Beta SE Pval

总结统计报告:93行- 93个独特变异- 70个全基因组显著变异(P<5e-8) - 20条染色体

检查多个gwas。

##检查一行上的多个rsid。

##检查SNP rsid。

##检查合并等位基因列。

##检查A1是否大写

##检查A2是否大写

##检查丢失的数据。

检查重复的列。

##检查重复的行。

## INFO列不可用。跳过INFO评分过滤步骤。

##过滤snp，确保SE>0。

##确保所有snp的N<5 std dev高于平均值。

从chr中删除'chr'前缀。

##大写X/Y/MT CHR。

##警告:当方法为整数时，必须为>0。

SNPs(50.5%)的FRQ值为> 0.5。FRQ列通常用于显示次要/影响等位基因频率。FRQ列是从输入的摘要统计文件中的以下一个映射的:## frq, eaf, frequency, frq_u, f_u, maf, freq, freq_tested_allele, frq_tested_allele, freq_effect_allele_freq, efft_allele_frq, a1freq, a1frq, a2freq, a2frq, allele_frequency, allele_freq, allele_frq, af, minor_af, effect_af, a2_af, eff_af, alt_af, alternative_af, inc_af, a_2_af, tested_af, af1, allelefreq, alt_freq, eaf_hrc, effectallelefreq, freq . a1 . 1000g。欧元,FREQ.A1.ESP。欧元,FREQ.ALLELE1。Hapmapceu freq.b freq1 freq1。Hapmap, freq_european_1000genomes, freq_hapmap, freq_tested_allele_in_hrs, frq_a1, frq_u_113154, frq_u_31358, frq_u_344901, frq_u_43456, pooled_alt_af, af_alt, af.alt, af-alt, alt-af, alt-af, a2。Af a2-af, Af。eff, af_eff, af_eff

由于frq_is_maf=TRUE, FRQ列将不会被重命名。如果FRQ值打算表示主要等位基因频率，##设置frq_is_maf=FALSE将列重命名为MAJOR_ALLELE_FRQ，并将其与次要/影响等位基因频率区分开来。

##用data.table排序坐标

##写入表格格式==> /tmp/RtmpQmARMJ/fileb60d36e58702.tsv.gz

总结统计报告:93行(原93行的100%)93个独特变异，70个全基因组显著变异(P<5e-8)， 20个染色体

在0.004分钟内完成咀嚼。

成功完成sumstats文件的准备，预览:

##阅读头。

## SNP CHR BP A1 A2 FRQ BETA SE P ## 1: rs301800 1 8490603 T C 0.17910 0.019 0.003 1.794e-08 ## 2: rs11210860 1 43982527 A G 0.36940 0.017 0.003 2.359e-10 ## 3: rs34305371 1 72733610 A G 0.08769 0.035 0.005 3.762e-14 ## 4: rs2568955 1 72762169 T C 0.23690 -0.017 0.003 1.797e-08

返回保存数据的路径。

这里我们知道汇总统计是基于参考基因组GRCh37，也可以输入GRCh38。此外，如果您不确定基因组构建，请保持原样零Mungesumstats将从数据中推断出这一点。

还要注意，与参考基因组一起使用的默认dbSNP版本是Bioconductor上可用的最新版本(目前为dbSNP 155)，但也可以使用较旧的版本。使用dbSNP输入参数来控制它。

的参数format_sumstats即控制QC所进行的水平MungeSumstats是:

convert_small_p二进制文件,应p值< 5e-324被转换为0?小的p值超过R极限，可能会导致LDSC/MAGMA的误差，应该进行转换。默认为TRUE。
convert_large_p二进制，p值>1是否可以转换为1?p值>1应该是不可能的，可能会导致LDSC/MAGMA的错误，应该进行转换。默认为TRUE。
convert_neg_p二进制，p值<0是否应该转换为0?负p值不应该是可能的，并且可能会导致LDSC/MAGMA的错误，应该进行转换。默认为TRUE。
compute_z是否从p计算Z-score列。默认为FALSE。请注意为每个SNP输入z分数不会完全正确，可能会导致能量损失。这只能作为最后的手段。
force_new_z当“Z”列已经存在时，将默认使用它。重写并计算一个新的Z-score列，从P集到TRUE。
compute_n是否impute N默认为0将不会impute，任何其他整数将被impute为数据集中每个SNP的N(样本量)。请注意为每个SNP输入样本量是不正确的，只能作为最后的手段。N也可以输入“ldsc”，“sum”，“giant”或“metal”，通过传递其中一个字段或一个倍数的向量。Sum和一个整数值在输出中创建N列，而giant、metal或ldsc创建Neff或有效样本量。如果传递了倍数，则会指出用于推导它的公式。
convert_n_int二进制，如果N(样本数)不是整数，这应该四舍五入吗?默认为TRUE。analysis_trait如果研究了多个性状，则GWAS中要分析的性状的名称。默认值为NULL。
impute_beta二进制，如果BETA没有出现在总和中，是否应该使用其他效果数据进行估算。请注意，这种估算是一种近似值，因此可能会对下游分析产生影响。请谨慎使用。MungeSumstats将尝试和impute beta(按此顺序或优先级)的不同方法是:日志(或)2。Z x SE。默认值为FALSE。
es_is_beta二进制，是否将ES映射到。我们取BETA为任何类似BETA的值(包括效应大小)。如果这不是你的sumstats的情况，将其更改为FALSE。默认为TRUE。
impute_se二进制，如果标准误差没有出现在总和中，是否应该使用其他效果数据来估算。请注意，这种估算是一种近似值，因此可能会对下游分析产生影响。请谨慎使用。MungeSumstats将尝试和impute se(按此顺序或优先级)的不同方法是:/ z
1. abs(β/ qnorm (P / 2))。默认值为FALSE。
analysis_trait如果研究了多个性状，则GWAS中用于分析的性状的名称。默认值为NULL。
INFO_filter0-1赋值信息分数允许的最小值(如果出现在sumstatsfile中)。默认的0.9
FRQ_filter0-1 SNP的频率(FRQ)允许的最小值(即等位基因频率(AF))(如果存在于sumstats文件中)。默认情况下不进行过滤，即值为0。
pos_se二进制是否应该检查标准错误(SE)列以确保它大于0?如果在sumstats文件中存在，则将删除。违约事实。
effect_columns_nonzero二进制应该检查数据BETA,OR(比值比)，LOG_ODDS,SIGNED_SUMSTAT中的效果列，以确保没有SNP=0。这样做的将被删除(如果出现在sumstats文件中)。违约事实。
N_std数值，即高于SNP的N的平均值的标准差数需要被移除。缺省值是5。N_dropNA控制缺少N值的snp是否被删除(默认为TRUE)。
N_dropNA删除N缺失的行。默认为TRUE。
rmv_chr需要去除snp的染色体。如果不需要过滤，则使用NULL。默认是X, Y和线粒体。rmv_chrPrefix控制是否从染色体名称中删除“chr”/“chr”(默认为TRUE)。
rmv_chrPrefix从染色体名称中去掉“chr”或“chr”。默认为TRUE。
on_ref_genome二进制，通过SNP ID检查所有SNP是否在参考基因组上。任何不在参考基因组上的snp，都将使用染色体和碱基对位置数据从参考基因组中校正(如果可能的话)。默认为TRUE
convert_ref_genome要转换的参考基因组的名称(“GRCh37”或“GRCh38”)。这只会发生在当前的基因组构建不匹配的情况下。默认是不转换基因组构建(NULL)。
strand_ambig_filter二进制，是否应该删除具有链模糊等位基因的snp。默认为FALSE
allele_flip_check二进制，是否需要对照参考基因组检查等位基因列，以推断翻转是否必要。默认为TRUE。allele_flip_drop控制其A1或A2碱基对值与参考基因组不匹配的snp是否被删除。默认为TRUE。allele_flip_z控制z分数值是否应该与效果和FRQ列一起翻转(例如Beta)。默认为TRUE。allele_flip_frq控制频率(FRQ)值是否应该随着效果和Z-score列(例如Beta)一起翻转。默认为TRUE。
bi_allelic_filter二元的，非双等位的snp应该被去除。默认为TRUE
snp_ids_are_rs_ids二进制，如果输入的SNP ID被推断为RS ID或一些任意ID。默认为TRUE。
remove_multi_rs_snp二进制有时汇总统计信息在一行上可能有多个rsid(即与一个SNP相关)，例如“rs5772025_rs397784053”。这可能会导致错误，因此默认情况下，第一个RS ID将被保留，其余的将被删除，例如“rs5772025”。如果你想完全删除这些snp，将其设置为TRUE。默认为FALSE。
frq_is_maf二进制，通常FRQ列旨在显示次要/影响等位基因频率(MAF)，但有时主要等位基因频率可以推断为FRQ列。这个逻辑变量表明，如果频率值似乎与主等位基因相关，即>0.5，则FRQ列应该重命名为MAJOR_ALLELE_FRQ。默认情况下映射不会发生，即为TRUE。
indels二进制你的Sumstats文件包含索引吗?这些在我们的引用文件中不存在，所以如果这个值为TRUE，它们将被排除在检查之外。进一步的信息-我们在MSS中使用的参考数据集(dbSNP)不包括indels，因此任何检查，如参考基因组上的SNP，试图为indels归因任何缺失的数据或检查效果列的方向，都不能为indels做。如果可能的话，indel将保留在数据集中，但某些情况(比如数据丢失)可能会导致indel被删除。看看MSS在跑步过程中打印的信息，看看这是否会影响到你。默认为TRUE。
drop_indels二进制在总和中发现的任何indels应该被删除吗?它们不能对照参考数据集进行检查，并且与snp具有相同的RS ID和位置，这可能会影响下游分析。默认为False。
dbSNP用作参考的dbSNP版本——默认为可用的最新版本(155)。注意，dbSNP 155比144多9倍的snp，运行时间会增加。
sort_coordinates是否按结果求和的坐标排序。
nThread用于并行进程的线程数。
write_vcf是否写入VCF (TRUE)或表格文件(FALSE)。而tabix_index是否使用二进制输入来索引格式化的摘要统计信息tabix用于快速查询。
return_data返回data.table，农庄或VRanges直接给用户。否则，返回保存数据的路径。默认为FALSE。
return_format如果return_data为TRUE。返回的对象类型(" data.table "， " vranges "， " granges ")。
save_format在保存为VCF之前，确保输出格式满足直接传递到LDSC(“LDSC”)的所有要求，而不需要额外的修改或IEU OpenGWAS格式(“OpenGWAS”)
log_folder_ind是否存储包含所有过滤掉的snp的日志文件(每个过滤器单独文件)。数据以与结果sumstats文件指定的相同格式输出。
log_mungesumstats_msgs二进制应该存储一个包含MungeSumstats在一次运行中打印的所有消息和错误的日志。
imputation_ind二进制是否为每个归责步骤添加一列，以显示哪些snp对不同的字段有归责值。这包括一个表示SNP等位基因翻转(翻转)的字段。在翻转的值上，这表示等位基因是否根据MungeSumstats从输入列标题中的初始选择A1, A2进行切换，因此可能与创建者的意图不一致。请注意这些列将在返回的格式化摘要统计信息中。
log_folder要存储的日志文件和MungeSumstats消息日志的目录的文件路径。Default是一个临时目录。
force_new如果存在同名的格式化文件，则将跳过格式化并导入该文件(默认)。设置为重写此设置。
mapping_fileMungeSumstats有一个预定义的列名映射文件，该文件应该涵盖最常见的列标题及其解释。但是，如果你文件中的列标题缺少我们给出的映射是不正确的，你可以提供自己的映射文件。必须是一个2列的数据框架，列名为“Uncorrected”和“Corrected”。看到数据(sumstatsColHeaders)用于默认映射和必要的格式。

看到? MungeSumstats:: format_sumstats ()参阅控制MungeSumstats QC和标准化步骤的参数完整列表。

VCF文件也可以标准化为与其他摘要统计文件相同的格式。来自ieu open GWAS项目的肌萎缩性侧索硬化症GWAS的一个子集(一个.vcf文件)已被添加到MungeSumstats为了演示这个功能。简单地将路径传递给文件，以与其他摘要统计文件相同的方式:

#保存ALS GWAS从ieu打开GWAS项目到临时目录ALSvcfPth <- system.file("extdata"，"ALSvcf. file ")vcf”,包= " MungeSumstats”)

reformatted_vcf <- MungeSumstats::format_sumstats(path=ALSvcfPth, ref_genome="GRCh37")

您还可以获得更多关于已被输入数据或已被过滤掉的snp的信息MungeSumstats通过使用imputation_ind而且log_folder_ind参数分别。例如:

#set reformatted_vcf_2 <- MungeSumstats::format_sumstats(path=ALSvcfPth, ref_genome="GRCh37"， log_folder_ind=TRUE, imputation_ind=TRUE, log_mungesumstats_msgs=TRUE)

时差:0.5秒

检查文件snp_bi_allelic.tsv.gz在log_folder目录(默认为临时目录)，用于删除非双等位基因的snp列表。包含控制台输出和消息的文本文件也存储在同一个目录中。

注意，还可以使用命令来控制MungeSumstats用作参考数据集的dbSNP版本dbSNP参数。默认情况下，这将被设置为可用的最新dbSNP版本(155)。

注意使用log_folder_ind返回一个列表format_sumstats其中包括不同类别的被删除snp的文件位置。使用log_mungesumstats_msgs将发送到控制台的消息保存到同一个列表中返回的文件中。请注意，当您设置时，并非所有消息都将打印到屏幕上log_mungesumstats_msgs：

名(reformatted_vcf_2)

##[1]“sumstats”“log_files”

用户可以通过加载文件查看排除的snp。

在这种情况下，基于INFO条件没有过滤任何snp，因此该值返回NA(而不是被过滤的snp表的路径)。

print (reformatted_vcf_2 log_files info_filter美元)

# #空

导致这些名称的不同类型的排除如下:

snp_multi_rs_one_row—SNP (RS ID)包含多个RS ID。
snp_missing_rs- SNP (RS ID)缺少RS前缀。注意，只有当其他snp有rs前缀时，这些才会被删除。
snp_multi_colon—一个SNP中有多个冒号(“:”)。
snp_not_found_from_bp_chr-使用参考基因组，试图从CHR和BP (Base-Pair)信息中估算RS ID，但未成功。
chr_bp_not_found_from_snp-使用参考基因组，试图从SNP (RS ID)中估算CHR和BP (Base-Pair)，但没有成功。
alleles_not_found_from_snp-使用参考基因组试图从SNP (RS ID)中估算等位基因(A1和/或A2)，但未成功。
alleles_dont_match_ref_gen-等位基因(A1和/或A2)与参考基因组上的不匹配。
missing_data-在输入列中缺少数据的地方。
dup_snp_id—输入中重复的SNP ID。
dup_base_pair_position—输入中碱基对的位置重复。
info_filter- SNP INFO值低于指定阈值。
se_neg—SNPs SE (Standard Error)值为0或负值。
effect_col_zero- SNPs效应列值为0，例如BETA=0。
n_large—SNPs N是比平均值大N个标准差。
n_null—“SNPs N”为空。
chr_excl- SNP位于指定要排除的染色体上。
snp_strand_ambiguous- SNP链不明确。
snp_bi_allelic- SNP不是双等位基因。
MungeSumstats_log_msg- MungeSumstats运行期间创建的所有发送到控制台的消息的文本文件。
MungeSumstats_log_output- MungeSumstats运行过程中产生的所有错误到控制台的文本文件。

注意要导出到另一种类型，如R原生对象包括数据。表，GRanges, VRanges或保存为VCF文件，设置return_data = TRUE选择你的return_format：

#set reformatted_vcf_2 <- MungeSumstats::format_sumstats(path=ALSvcfPth, ref_genome="GRCh37"， log_folder_ind=TRUE, imputation_ind=TRUE, log_mungesumstats_msgs=TRUE, return_data=TRUE, return_format="GRanges")

现在你也可以输出一个兼容的VCF内外加厚OpenGWAS(请注意，目前所有IEU OpenGWAS sumstats是GRCh37, MungeSumstats将抛出一个警告，如果你的数据不是GRCh37保存时):

#set reformatted_vcf_2 <- MungeSumstats::format_sumstats(path=ALSvcfPth, ref_genome="GRCh37"， write_vcf=TRUE, save_format ="openGWAS")

有关这些检查和选项的进一步讨论，请参阅我们的出版物:

Murphy等人。MungeSumstats:一个Bioconductor包，用于许多GWAS汇总统计的标准化和质量控制。

6额外的功能

6.1构建基因组

MungeSumstats还包含一个功能，以快速推断多个汇总统计文件的基因组构建。这可以单独调用到format_sumstats ()如果你想快速检查基因组构建，这是很有用的:

#将教育成就Okbay sumstat文件的路径传递到临时目录eduAttainOkbayPth <- system。file("extdata"，" eduAttainOkbay.txt"， package = "MungeSumstats") ALSvcfPth <- system.file("extdata"，"ALSvcf. txt")vcf”,包= " MungeSumstats”)sumstats_list <- list(ss1 = eduAttainOkbayPth, ss2 = ALSvcfPth) ref_genomes <- MungeSumstats::get_genome_builds(sumstats_list = sumstats_list)

6.2Liftover

MungeSumstats暴露了liftover ()函数作为用户的通用实用程序。

有用的功能包括:-基因组构建名称的自动标准化(即“hg19”，“hg37”和“GRCh37”都将被识别为相同的基因组构建)-指定能力chrom_col两者都有start_col而且end_col(对于跨度为>1bp的变体)。-能够返回data.table或农庄格式。-能够指定要返回的染色体格式(例如“chr1”vs. 1)农庄作为。

sumstats_dt <- MungeSumstats::formatted_example()

##标准化列标题。

第一行汇总统计文件:

## MarkerName CHR POS A1 A2 EAF Beta SE Pval

##用data.table排序坐标

sumstats_dt_hg38 <- MungeSumstats::liftover(sumstats_dt = sumstats_dt, ref_genome = "hg19"， convert_ref_genome = "hg38")

##执行hg19到hg38的数据迁移。

##将汇总统计数据转换为基因组范围。

##从Ensembl下载链文件。

# # / tmp / RtmpQmARMJ / GRCh37_to_GRCh38.chain.gz

##重新排序，所以前三个列标题是SNP, CHR和BP按此顺序排列。

##重新排序，使第四列和第五列分别为A1和A2。

knitr:: kable(头(sumstats_dt_hg38))

单核苷酸多态性	空空的	英国石油公司	A1	A2	FRQ	β	SE	P	IMPUTATION_gen_build
rs301800	1	8430543	T	C	0.17910	0.019	0.003	0 e + 00	真正的
rs11210860	1	43516856	一个	G	0.36940	0.017	0.003	0 e + 00	真正的
rs34305371	1	72267927	一个	G	0.08769	0.035	0.005	0 e + 00	真正的
rs2568955	1	72296486	T	C	0.23690	-0.017	0.003	0 e + 00	真正的
rs1008078	1	90724174	T	C	0.37310	-0.016	0.003	0 e + 00	真正的
rs61787263	1	98153158	T	C	0.76120	0.016	0.003	1 e-07	真正的

6.3快速格式化

在某些情况下，用户可能不想运行提供的完整munging管道
MungeSumstats: format_sumstats，但仍然希望利用文件类型转换和列标题标准化特性。这将不会像完整的管道那样健壮，但仍然是有帮助的。

6.3.1从磁盘

要做到这一点，只需运行以下命令:

eduAttainOkbayPth <- system。file("extdata"， "eduAttainOkbay_standardised.tsv.gz"， package = "MungeSumstats") formatted_path <- tempfile(fileext = "eduAttainOkbay_standardised.tsv.gz") ####读取数据并标准化头名称#### dat <- MungeSumstats::read_sumstats(path = eduAttainOkbayPth, standardise_headers = TRUE)

导入表格文件:/tmp/RtmpUHkp6t/Rinstb4e3a7bd3e6fb/MungeSumstats/extdata/eduAttainOkbay.txt

##检查空列。

##标准化列标题。

第一行汇总统计文件:

## MarkerName CHR POS A1 A2 EAF Beta SE Pval

knitr:: kable(头(dat))

单核苷酸多态性	空空的	英国石油公司	A1	A2	FRQ	β	SE	P
rs10061788	5	87934707	一个	G	0.2164	0.021	0.004	0 e + 00
rs1007883	16	51163406	T	C	0.3713	-0.015	0.003	1 e-07
rs1008078	1	91189731	T	C	0.3731	-0.016	0.003	0 e + 00
rs1043209	14	23373986	一个	G	0.6026	0.018	0.003	0 e + 00
rs10496091	2	61482261	一个	G	0.2705	-0.018	0.003	0 e + 00
rs10930008	2	161854736	一个	G	0.7183	-0.016	0.003	1 e-07

# # # # 2。作为一个压缩的、制表符分隔的、索引的文件写入磁盘#### formatted_path <- MungeSumstats::write_sumstats(sumstats_dt = dat, save_path = formatted_path, tabix_index = TRUE, write_vcf = FALSE, return_path = TRUE)

##用data.table排序坐标

##写入表格格式==> /tmp/RtmpQmARMJ/ fileb60d3159ba8ceduattainokbay_standardisds .tsv

##编写未压缩而不是gzip以启用表索引。

##转换完整的摘要统计文件到tabix格式，以便快速查询…

##阅读头。

##确保文件已bgzip。

##索引文件。

##删除临时的。tsv文件。

再从`data.table`

如果您已经将数据导入为data.table，你也可以像这样标准化它的头文件:

####弄乱一些列名#### dat_raw <- data.table::copy(dat) data。table::setnames(dat_raw, c(“SNP”，“CHR”)，c(“rsID”，“Seqnames”))####添加一个非标准列，我想为#### dat_raw保留大小写$Support <- runif(nrow(dat_raw)) dat2 <- MungeSumstats::standardise_header(sumstats_dt = dat_raw, uppercase_unmapped = FALSE, return_list = FALSE)

##标准化列标题。

第一行汇总统计文件:

## rsID Seqnames BP A1 A2 FRQ BETA SE P支持

返回未映射的列名，不使用大写字母。

knitr:: kable(头(dat2))

单核苷酸多态性	空空的	英国石油公司	A1	A2	FRQ	β	SE	P	支持
rs301800	1	8490603	T	C	0.17910	0.019	0.003	0 e + 00	0.3307940
rs11210860	1	43982527	一个	G	0.36940	0.017	0.003	0 e + 00	0.2942237
rs34305371	1	72733610	一个	G	0.08769	0.035	0.005	0 e + 00	0.1596918
rs2568955	1	72762169	T	C	0.23690	-0.017	0.003	0 e + 00	0.5666538
rs1008078	1	91189731	T	C	0.37310	-0.016	0.003	0 e + 00	0.8303673
rs61787263	1	98618714	T	C	0.76120	0.016	0.003	1 e-07	0.1526445

7未来的增强

的MungeSumstats包的目的是能够处理最常见的摘要统计文件格式，包括VCF。如果您的文件无法被格式化MungeSumstats欢迎在github上报告该漏洞:https://github.com/neurogenomics/MungeSumstats以及您的摘要统计文件头。

我们也鼓励人们编辑代码来解决他们的特定问题，并且很高兴通过在github上的pull请求来合并这些。如果您的摘要统计文件头不能被识别MungeSumstats但对应于其中之一:

SNP, BP, CHR, A1, A2, P, Z, OR, BETA, LOG_ODDS, SIGNED_SUMSTAT, N, N_CAS, N_CON, NSTUDY, INFO或FRQ

请随时更新MungeSumstats: sumstatsColHeaders遵循数据中的方法。R文件并添加映射。然后在github上使用拉请求，我们将把这一更改合并到包中。

关于MungeSumstats: sumstatsColHeaders用于编号为A0/A1的摘要统计文件。中的映射MungeSumstats: sumstatsColHeaders将A0转换为A*，这是一个特殊情况，以便代码知道将A0/A1映射为A1/A2 (ref/alt)。特殊情况是需要的，因为通常A1指的是参考基因，而不是替代等位基因。

关于MungeSumstats: sumstatsColHeaders用于具有效应大小(ES)的摘要统计文件。默认情况下，MSS接受BETA为任何类似BETA的值(包括ES)。这被编码到映射文件-中MungeSumstats: sumstatsColHeaders。如果sumstats不是这种情况，则可以设置es_is_beta参数MungeSumstats: format_sumstats ()为FALSE来避免这种情况。注意，这样做是为了尝试并捕获MSS的大多数用例。

8进一步的功能

看到打开GWAS小插图MungeSumstats如何与来自MRC IEU Open GWAS项目的数据一起使用，以及MungeSumstats处理汇总统计文件列表的功能。

9会话信息

## R正在开发中(不稳定)(2023-01-10 r83596) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##时区:美国/New_York ## tzcode源:系统(glibc) ## ##附加的基本包:## [1]stats graphics grDevices utils datasets methods base ## ##其他附加包:## [1]MungeSumstats_1.7.15 biocstyle_1 .27.1 ## ##通过命名空间加载(且未附加):# # # # [1] tidyselect_1.2.0 [2] dplyr_1.0.10 # # [3] blob_1.2.3 # # [4] filelock_1.0.2 # # [5] R.utils_2.12.2 # # [6] Biostrings_2.67.0 # # [7] bitops_1.0-7 # # [8] fastmap_1.1.0 # # [9] rcurl_1.98 - 1.9 # # [10] BiocFileCache_2.7.1 # # [11] VariantAnnotation_1.45.0 # # [12] GenomicAlignments_1.35.0 # # [13] xml_3.99 - 0.13 # # [14] digest_0.6.31 # # [15] lifecycle_1.0.3 # # [16] ellipsis_0.3.2 # # [17] KEGGREST_1.39.0 # # [18] RSQLite_2.2.20 # # [19] googleAuthR_2.0.0 # # [20] magrittr_2.0.3 # # [21] compiler_4.3.0 # #[22] rlang_1.0.6 ## [23] sass_0.4.4 ## [24] progress_1.2.2 ## [25] tools_4.3.0 ## [26] utf8_1.2.2 ## [27] yaml_2.3.6 ## [28] data.table_1.14.6 ## [29] rtracklayer_1.59.1 ## [30] knitr_1.41 ## [31] prettyunits_1.1.1 ## [32] curl_5.0.0 ## [33] bit_4.0.5 ## [34] DelayedArray_0.25.0 ## [35] xml2_1.3.3 ## [36] BiocParallel_1.33.9 ## [37] BiocGenerics_0.45.0 ## [38] R.oo_1.25.0 ## [39] grid_4.3.0 ## [40] stats4_4.3.0 ## [41] fansi_1.0.3 ## [42] biomaRt_2.55.0 ## [43] SummarizedExperiment_1.29.1 ## [44] cli_3.6.0 ## [45] rmarkdown_2.20 ## [46] crayon_1.5.2 ## [47] generics_0.1.3 ## [48] BSgenome.Hsapiens.1000genomes.hs37d5_0.99.1 ## [49] httr_1.4.4 ## [50] rjson_0.2.21 ## [51] DBI_1.1.3 ## [52] cachem_1.0.6 ## [53] stringr_1.5.0 ## [54] zlibbioc_1.45.0 ## [55] assertthat_0.2.1 ## [56] parallel_4.3.0 ## [57] AnnotationDbi_1.61.0 ## [58] BiocManager_1.30.19 ## [59] XVector_0.39.0 ## [60] restfulr_0.0.15 ## [61] matrixStats_0.63.0 ## [62] vctrs_0.5.1 ## [63] Matrix_1.5-3 ## [64] jsonlite_1.8.4 ## [65] bookdown_0.32 ## [66] IRanges_2.33.0 ## [67] hms_1.1.2 ## [68] S4Vectors_0.37.3 ## [69] bit64_4.0.5 ## [70] GenomicFiles_1.35.0 ## [71] GenomicFeatures_1.51.4 ## [72] jquerylib_0.1.4 ## [73] glue_1.6.2 ## [74] codetools_0.2-18 ## [75] stringi_1.7.12 ## [76] GenomeInfoDb_1.35.13 ## [77] BiocIO_1.9.2 ## [78] GenomicRanges_1.51.4 ## [79] tibble_3.1.8 ## [80] pillar_1.8.1 ## [81] SNPlocs.Hsapiens.dbSNP155.GRCh37_0.99.24 ## [82] rappdirs_0.3.3 ## [83] htmltools_0.5.4 ## [84] GenomeInfoDbData_1.2.9 ## [85] BSgenome_1.67.3 ## [86] R6_2.5.1 ## [87] dbplyr_2.3.0 ## [88] evaluate_0.20 ## [89] lattice_0.20-45 ## [90] Biobase_2.59.0 ## [91] highr_0.10 ## [92] R.methodsS3_1.8.2 ## [93] png_0.1-8 ## [94] Rsamtools_2.15.1 ## [95] gargle_1.2.1 ## [96] memoise_2.0.1 ## [97] bslib_0.4.2 ## [98] Rcpp_1.0.9 ## [99] xfun_0.36 ## [100] fs_1.5.2 ## [101] MatrixGenerics_1.11.0 ## [102] pkgconfig_2.0.3

参考文献

1.内森·g·斯基恩，t·e·B，朱利安·布罗伊斯。精神分裂症潜在脑细胞类型的遗传鉴定。自然遗传学(2018)。doi:10.1038 / s41588 - 018 - 0129 - 5

`MungeSumstats`:开始

作者: Alan Murphy, Brian Schilder和Nathan Skene

更新: 1月- 20 - 2023

内容

1引用

2概述

3.目的

4数据

5运行MungeSumstats

6额外的功能

6.1构建基因组

6.2Liftover

6.3快速格式化

6.3.1从磁盘

再从`data.table`

7未来的增强

8进一步的功能

9会话信息

参考文献

MungeSumstats:开始

作者: Alan Murphy, Brian Schilder和Nathan Skene

更新: 1月- 20 - 2023

内容

1引用

2概述

3.目的

4数据

5运行MungeSumstats

6额外的功能

6.1构建基因组

6.2Liftover

6.3快速格式化

6.3.1从磁盘

再从data.table

7未来的增强

8进一步的功能

9会话信息

参考文献

`MungeSumstats`:开始

再从`data.table`