在实施机器学习算法时,标准化/规范化数据是必不可少的,如果不是关键的话。使用 Spark 结构化流以实时方式执行此操作一直是我过去几周一直试图解决的问题。
事实证明,使用历史数据的StandardScaler
估计器((value(i)-mean) /standard deviation)
非常好,在我的用例中,获得合理的聚类结果是最好的,但我不确定如何StandardScaler
使用实时数据拟合模型。结构化流不允许它。任何建议将不胜感激!
换句话说,如何在 Spark 结构化流中拟合模型?