异常值是看起来异常的数据点。采用参数概率模型最容易对异常进行精确的定量测量。重要的统计和计算研究一直致力于设计和合理化不需要采用参数概率模型的离群性标准。该软件包为在单变量和多变量样本中测量离群性的统计方法文献中提出的各种方法提供接口。它作为一种资源通过bio导体.org提供,因为在许多不同的情况下,对异常值的正式测试是基因组规模数据分析的一个常见问题。
Davies和Gather(1992)对单变量样本的离群性标准进行了详细研究。用表单定义Inlier边界\((\hat{m}-c(n)\hat{s}, \hat{m} + c(n)\hat{s})\),在那里\ ({m} \ \帽子)是一个位置参数估计,\(\帽子{年代}\)是规模参数估计,和\ \ (c (n))是取决于样本量的乘数。候选人\ \(米)均修剪为平均值、中位数、中点短;候选人\ (\)包括修剪后的标准偏差,中位数绝对偏差(MAD),短长度。熟悉的箱线图异常值标记规则并不能立即归入这个框架,因为左右inlier边界与位置参数值的距离可能不相等。
这个包提供了实现各种标签规则组件的功能;用户可以混合组件来定义自己的过程。
我们定义了一个由Rosner(1983)提出的数据集。这些数据涉及接触不同铅环境的儿童的触碰频率。
铅< -c(83,70,62,55,56,57,57,58,59,50,51,52,52,52,54,54,45,46,48,48,49,40,40,41,42,42,44,44,35,37,38,38,34,13,14)
我们可以使用箱线图来可视化分布。这包括一个离群点标记标准,在胡须之外的点被宣布为离群点。
第一个正式的评估使用熟悉的箱线图规则。为此,我们需要提供手册页中描述的缩放函数。
# #印第安纳# #[1]34 35美元1 # # # # $ val # #[1] 13 14 # # # # 83例外。地区## [1]18.16667 76.83333
我们可以看到这与R的可视化是一致的。
对箱线图规则的校准进行了理论工作ftype
设置为“理想”
.参考手册页。
## tukeyorinds(x = x, alpha = alpha, g = g)警告:在异常值##区域没有数据值
# # $印第安纳# # # # # # [1]NA val # #美元[1]NA # # # # $局外人。地区## [1]7.808079 87.191921
另一个不适合Davies和Gather框架的程序是B Rosner提出的广义极端学生化偏离程序。在这个过程中,我们预先指定可能的离点的数量\ (k \)(可以是小于样本容量一半的任何数字),以及\ (k \)从最高值到最低值记录最极端的学生偏差。然后使用分析临界值进行重复的“外部测试”,该临界值约束了整个测试过程中的错误异常值标记率,无论是否存在异常值。
这里我们应用Rosner的过程:
## $ind ## [1] 1 34 35 ## ## $val ## [1] 83 13 14
它给出的结果与标准箱线图一致。
Davies和Gather使用缩放函数描述了基于中值和MAD的规则\ \ (c (n))他们会把汉佩尔联系起来这个过程使用表达式(3)中定义的缩放函数。
# #印第安纳# #[1]34 35美元1 # # # # $ val # #[1] 13 14 # # # # 83例外。地区## [1]14.92932 81.07068
最后我们使用基于短的检测器。
## rououtinds警告(x = x, alpha = alpha, g = g):在异常值##区域没有数据值
# # $印第安纳# # # # # # [1]NA val # #美元[1]NA # # # # $局外人。地区## [1]6.215225 94.784775
一个样本数据集tcost
随包装提供。在可视化之前,我们计算了一个默认的多元离群值标准,由于Caroni和Prescott,它概括了Rosner的GESD:
## $inds ## [1] 21 9 ## ## $vals ##燃料修复资本## 21 26.16 17.44 16.89 ## 9 29.11 15.09 3.28 ## ## $k ## [1] 17 ## ## $alpha ## [1] 0.05
我们看到指数9和21被标记了。让我们用着色来创建一个对图。
另一种表达兴趣的方式是使用主成分:
为了了解双标图的稳健性(或缺乏稳健性),让我们在删除被Caroni和Prescott程序标记为异常值的数据点后重新绘制。