apache-spark - 使用 Spark 结构化流的实时数据标准化/规范化

Question

在实施机器学习算法时，标准化/规范化数据是必不可少的，如果不是关键的话。使用 Spark 结构化流以实时方式执行此操作一直是我过去几周一直试图解决的问题。

事实证明，使用历史数据的StandardScaler估计器((value(i)-mean) /standard deviation)非常好，在我的用例中，获得合理的聚类结果是最好的，但我不确定如何StandardScaler使用实时数据拟合模型。结构化流不允许它。任何建议将不胜感激！

换句话说，如何在 Spark 结构化流中拟合模型？

score 2 · Accepted Answer

我得到了这个答案。目前还不可能使用 Spark 结构化流进行实时机器学习，包括标准化；但是，对于某些算法，如果构建/拟合了离线模型，则可以进行实时预测。

查看：

1 回答 1