1

我已经删除了建模数据中的异常值。我厌倦了尝试所有删除方法,因为在应用了许多方法后,有一个异常值让我很困扰。

任何人都可以请帮我解决这个问题.....拜托..

我使用了 winzorise、异常值、极值包等,但无法删除异常值

数据有 50000 个客户和 32 个属性。

数据既有数字数据也有非数字数据

我无法在此处附加数据集。

请帮我

额外的信息:

我非常担心,因为这是我的论文,我不知道如何处理异常值..

如果您知道任何有效的方法,请发布...

网上有资料,这里不能发,不好意思。。。

我的主管需要一个没有异常值的图......以及异常值数据的整个数据槽。我不知道如何对所有变量组合执行此操作,并选择异常值并在图中没有任何异常值的情况下进行绘图。

我不知道该怎么做。由于声誉<10,我无法发布图片或数据快照

4

2 回答 2

1

到目前为止,如果没有关于您的数据和结果的更多信息,您将只能得到非常笼统的答案。例如,在 Y. Zhao 的R 和数据挖掘 中有一章关于异常值检测可能很有用。

如果您的数据集是这个,那么大多数变量都是定性的:单独查看每个变量可能就足够了,并将稀有类视为异常值。本文列出了更多算法。

也可能没有异常值需要担心。

于 2013-06-16T11:51:42.157 回答
0

您的数据是多变量的,因此您可以将 cov.mcd 和 cov.mve 用于最小协方差行列式和最小体积椭球估计量。然后使用这些协方差估计值之一计算 mahalonabis 距离。高于临界值的平方马氏距离可以被认为是大的,相应的观察可以被标记为异常值。使用自由度为 p 的卡方分布的分位数,其中 p 是变量的数量。

编辑: cov.mcd 和 cov.mve 在包 MASS 中定义

于 2013-06-15T16:22:12.353 回答