TL;DR:鉴于整个数据集不可用并且您正在处理不断变化的环境的集群,如何规范化流数据
你好!我目前正在研究非平稳数据流的动态聚类。我需要对数据进行归一化, 因为所有特征在最终聚类中都应该有相同的影响,但我不知道该怎么做......
我需要应用标准规范化。我最初的方法是:
- 用初始数据点填充缓冲区
- 使用这些数据点来获得平均值和标准差
- 使用这些措施来标准化当前数据点
- 将那些标准化的点一一发送到算法
- 使用之前的措施将传入的数据点标准化一段时间
- 每隔一段时间再计算一次均值和标准差
- 用新措施表示当前的微集群质心(使用旧的措施,返回并再次标准化应该不是问题)
- 使用新措施将传入数据点标准化一段时间
- 等等 ....
问题是标准化数据不应该涉及聚类算法的作用......我的意思是,你无法告诉聚类算法'好的,你到目前为止所拥有的微集群需要用这个新的平均值进行标准化和stdev' ...我的意思是,我开发了一个算法,我可以做到这一点,但我也在使用现有的算法(clustream和denstream),我觉得修改它们以便能够做到这一点是不对的...... ..
有任何想法吗?
TIA