我有两个数据框需要在我尝试执行以下操作的地方进行聚类:
- 应用 PCA 去除异常值并使用带有 3 个分量的 PCA 来可视化它。我在异常值去除过程中使用了 97.5% 的总解释方差。
- 逆变换并获得逆变换后的数据帧与原始数据帧之间的 MSE 分数。
- 使用计算出的 MSE 分数使用 IQR 上括号限制来删除异常值。
- 应用具有 3 个组件的 PCA 来可视化并确定新数据帧上的集群数量。
我的主要问题是:
MSE 上的 IQR 是否是移除的良好标准?
由于我们使用的是绝对值,因此我仅限于大括号。如果不是并且我正在混合概念,那么这种转换的良好标准是什么?
或者我应该放弃 PCA 并使用其他异常值检测方法,如果是这样的话?
最终,在绘制 x,y,z 图时,我仍然可以将离集群很远的点可视化,这是否意味着它们不是异常值,只是代表一个小集群的几个分散的远点?还是异常值检测无效?
最后,在第二个数据帧上,3D 可视化具有大约 40% 的解释方差,应用相同的决策过程是否公平?