概述

此包提供与包一起使用的数据哈曼．其中包含三个微阵列基因表达数据集，作为批量效应校正的实例。基因表达数据及其处理如下所述。有关批量校正分析数据的使用，请参阅哈曼装饰图案。

Harman也可以用于批量效应校正甲基化数据，但由于生物学相关的聚类，该数据有特殊的警告。该数据包还包含5个Infinium甲基化数据集批量效应校正后的探针汇总统计数据。

参考矩阵包括来自澳大利亚、美国和意大利地区多样化和多种族人群的1,214 450K和1,094个EPIC阵列的数据，涵盖多个常见收集的生物样本(血液、颊细胞和唾液)。参考文献允许研究人员在他们的研究中识别错误校正和批量效应敏感的CpG探针。

HarmanData软件包可从Bioconductor (HarmanData）.

HarmanData包含的三个基因表达数据集概述:

对象	描述
`IMR90`	细胞系数据检测了将哺乳动物细胞暴露于一氧化氮中是否能稳定mrna
`NPM`	老鼠数据测试了局部涂抹防晒霜后金属氧化物纳米颗粒对皮肤的渗透
`OLF`	人类嗅觉干细胞系对ZnO纳米颗粒暴露反应的数据

基因表达数据示例

包中的所有示例基因表达数据集都用两个表示data.frame的年代。一个包含数据，另一个包含表型和批量结构的信息。这些数据集是Harman小插图中使用的示例数据集。

IMR90

data.frame	描述
`imr90.data`	Affymetrix HG-U133A阵列，包含22,223个探针(行)和12个生物样本(列)。
`imr90.info`	样品的描述，有两栏，处理和批次。

Johnson, Li和Rabinovich的批效应校正论文中的数据。这些数据来自一项细胞系实验，旨在揭示将哺乳动物细胞暴露于一氧化氮(NO)中是否能稳定mrna。数据包括一个处理、一个对照和2个时间点(0小时和7.5小时)，从而得到4个不同的(2个处理x 2个时间点)实验条件。共有3批，共12个样品，每批由每个实验条件的1个重复组成。在MATLAB中使用RMA程序对Affymetrix HG-U133A阵列进行归一化和背景调整。

NPM

data.frame	描述
`npm.data`	Affymetrix MoGene 1.0 ST阵列数据，有35512个探针集(行)和24个生物样本(列)。
`npm.info`	样品的描述，有两栏，处理和批次。

一项测试局部涂抹防晒霜后金属氧化物纳米颗粒穿透皮肤的实验。数据包括3个处理组和1个对照组，每组6个重复，共24个Affymetrix MoGene 1.0 ST阵列。共3个处理批次，每批8个阵列，每组2个重复。在MATLAB中使用RMA程序对数组进行归一化和背景调整。

OLF

data.frame	描述
`olf.data`	有33297个探针(行)和28个生物样本(列)。
`olf.info`	样品的描述，有两栏，处理和批次。

一项测量成人供体人类嗅觉神经球来源(hONS)细胞对ZnO纳米颗粒反应的实验。数据包括6个处理组和一个对照组，每个处理组由4个重复组成，总共28个Affymetrix HuGene 1.0 ST阵列。这些阵列被分成4个处理批次，每个批次有7个阵列，每个组都有一个副本。在MATLAB中使用RMA程序对数组进行归一化和背景调整。

使用

##加载包库(HarmanData)数据(IMR90)数据(NPM)数据(OLF)数据(Infinium5) OLF。数据(1:5,1:5)

## c1 c2 c3 c4 c5 ## p1 4.05866 4.58076 5.58438 2.90481 5.39752 ## p2 4.23886 4.08143 3.21386 3.53045 4.18741 ## p3 3.66121 2.79664 4.13699 2.86271 3.17795 ## p4 8.61399 9.09654 9.16841 9.10928 8.94949 ## p5 2.84004 2.66609 3.03612 3.26561 3.22945

暗(olf.data)

## [1] 33297 28

表(olf.info)

批# # # #治疗1 2 3 4 # # 1 1 1 1 1 # # 2 1 1 1 1 # # 3 1 1 1 1 # # 4 1 1 1 1 # # 5 1 1 1 1 # # 6 1 1 1 1 7 # # 1 1 1 1

甲基化参考数据

Infinium参考数据包含5个Infinium甲基化数据集批量效应校正后的探针汇总统计数据。该参考数据与哈曼-表观基因组全关联研究(EWAS)的一个特定用例相关。

EWAS数据来自儿童血液、颊细胞和唾液样本，这些样本来自探索健康和疾病发育起源中的各种表观遗传现象的研究。

参考数据是描述以下数据集的度批量校正的探针汇总统计数据:

数据集	描述
反射幻灯机	围产期环境启动的肥胖表观基因组研究联盟(EpiSCOPE)， n=369，外周血，450K
EPIC-Italy	欧洲癌症与营养前瞻性研究(epic -意大利)，n=845，外周血，450K
BodyFatness	新生儿体脂与心血管健康(BFiN)， n=169，唾液，EPIC
诺维	极早产儿(NOVI)新生儿神经行为和结局，n=534，口腔拭子，EPIC
URECA	城市环境与儿童哮喘(URECA)， n=391，脐带血和外周血，EPIC

Infinium5

5个数据集ComBat和Harman的校正后日志方差比(LVR)统计和平均差异。每个矩阵中有899255行，每个450K和EPIC设计的CpG站点探针都有一行。EPIC设计的探针数量远远超过450K设计，其中一些450K探针已经退役，并没有出现在EPIC设计中。因此，所有数据集的某些行中都将缺少值。NA表示该特定数据集缺少的CpG站点探测。

矩阵	描述
`lvr.combat`	战斗的LVR统计
`lvr.harman`	哈曼的LVR数据
`md.combat`	战斗的平均差异
`md.harman`	对哈曼来说，差异是微不足道的

使用

##加载包库(HarmanData) data(Infinium5) lvr。哈曼(“cg01381374”)

## EpiSCOPE_var_ratio_harman EpiSCOPE_var_ratio_harman -1.8059 -1.7200 ## BodyFatness_var_ratio_harman NOVI_var_ratio_harman ## -0.8973 -0.8842 ## URECA_var_ratio_harman ## # -0.8127

md.harman(“cg01381374”)

# EpiSCOPE_meandiffs_harman EpiSCOPE_meandiffs_harman - italy_meandiffs_harman ## 0.0612 0.0608 ## BodyFatness_meandiffs_harman NOVI_meandiffs_harman ## 0.0836 0.0473 ## URECA_meandiffs_harman ## 0.1268

反射幻灯机

EpiSCOPE研究中的beta值示例。一小段参考数据，用作Harman中beta聚类函数的示例。数据包含EpiSCOPE研究的369个阵列的11个CpG探针集的beta值(van Dijk, 2106)。450K甲基化数据来自于DOMInO (DHA优化母婴结局)队列中儿童的新生儿血点。

单槽	描述
`pd`	`369个样本的表型描述符`
`原始`	`来自研究的原始未经校正的数据`
`哈曼`	`哈曼校正数据`
`战斗`	`战斗校正数据`
`ref_lvr`	`11个探针的参考log2方差比`
`ref_md`	`11个探针的beta参考均值差`

使用

library(Harman) data(episcope) bad_batch <- c(1,5,9,17,25) is_bad_sample <- episcope$pd$array_num %in% bad_batch myK <- discoverClusteredMethylation(episcope$original[， !is_bad_sample]) mykClust = kClusterMethylation(episcope$original, row_ks=myK) res = clusterStats(pre_betas=episcope$original, post_betas=episcope$ Harman, kClusters = mykClust) all。平等(反射幻灯机ref_md meandiffs_harman美元,res meandiffs美元)

##[1]真

所有人。平等(反射幻灯机ref_lvr var_ratio_harman美元,res log2_var_ratio美元)

##[1]真

参考文献

约翰逊等人。生物统计学(2007)。doi: 10.1093 /生物统计学/ kxj037．
Osmond-McLeod等人。纳米毒理学(2014)。doi: 10.3109 / 17435390.2013.855832．
Osmond-McLeod等人。部分纤维毒物。(2013)。doi: 10.1186 / 1743-8977-10-54．

HarmanData:示例和参考数据使用批量校正包Harman

Jason Ross和Yalchin Oytam

2022年4月28日

概述