哪些方法最适合在动态环境中管理、预测和标记数据?系统数据分布变化,它不是静态的。系统可以有不同的正态设置,在不同的设置下,我们有不同的正态数据分布。考虑我们有两个类。正常和异常。怎么了?我们不能说我们可以依靠历史数据并训练一种简单的分类方法来预测未来的观察结果,因为在训练模型一天后,数据分布可能会发生变化,旧的观察结果将与新的观察结果无关。考虑下图:
蓝色分布和红色分布是正常数据,但在不同的设置下,在训练时我们只有一个设置。该数据适用于一个传感器。所以,假设我们用蓝色模型训练一个模型,并且还有一些异常样本。将异常样本想象为正常样本,在测量中带有一点噪音或故障。然后,我们想测试模型,但设置发生了变化,现在我们有红色分布作为我们的测试观察值。因此,模型对样本进行了错误分类。
对于这种情况,最好的方法是什么?请注意,我尝试了几种聚类算法,但它们无法管理和区分正常和异常样本。
非常欢迎任何建议和帮助。谢谢