0

我有两个数据框需要在我尝试执行以下操作的地方进行聚类:

  1. 应用 PCA 去除异常值并使用带有 3 个分量的 PCA 来可视化它。我在异常值去除过程中使用了 97.5% 的总解释方差。
  2. 逆变换并获得逆变换后的数据帧与原始数据帧之间的 MSE 分数。
  3. 使用计算出的 MSE 分数使用 IQR 上括号限制来删除异常值。
  4. 应用具有 3 个组件的 PCA 来可视化并确定新数据帧上的集群数量。

我的主要问题是:

MSE 上的 IQR 是否是移除的良好标准?

由于我们使用的是绝对值,因此我仅限于大括号。如果不是并且我正在混合概念,那么这种转换的良好标准是什么?

或者我应该放弃 PCA 并使用其他异常值检测方法,如果是这样的话?

最终,在绘制 x,y,z 图时,我仍然可以将离集群很远的点可视化,这是否意味着它们不是异常值,只是代表一个小集群的几个分散的远点?还是异常值检测无效?

最后,在第二个数据帧上,3D 可视化具有大约 40% 的解释方差,应用相同的决策过程是否公平?

4

1 回答 1

1

pca库提供了可用于可视化、异常值检测、解释方差的功能。通常,Hotelling T2 测试和 SPE/dmodx 是使用 PCA 时用于去除异常值的技术。可以在此处找到以前的异常值检测帖子:https ://stackoverflow.com/a/63043840/13730780

但一般来说,如果您的目标是检测异常值,则取决于您拥有的数据类型(连续、分类、单热、混合数据集),您是否想要/需要包含上下文。如果您的方法是通过聚类,您可以尝试包含诸如dbscan.

于 2020-07-23T08:14:39.503 回答