使用 Spark 1.5.1 的答案 MLLib Random Forest Probability,我能够使用 训练随机森林ml.classification.RandomForestClassifier
,并使用经过训练的随机森林处理保留数据帧。
我遇到的问题是,我想保存这个经过训练的随机森林,以便将来处理任何数据帧(具有与训练集相同的特征)。
此页面上的分类示例使用mllib.tree.model.RandomForestModel
,它显示了如何保存经过训练的森林,但据我所知,只能在LabeledPoint
RDD 上进行训练(并在未来进行处理)。我对LabeledPoint
RDD 的问题是它只能包含标签双精度和特征向量,所以我会丢失所有我需要用于其他目的的非标签/非特征列。
所以我想我需要一种方法来保存ml.classification.RandomForestClassifie
r 的结果,或者构造一个LabeledPoint
RDD,该 RDD 可以保留除通过mllib.tree.model.RandomForestModel
.
任何人都知道为什么同时存在 ML 和 MLlib 库中的一个吗?
非常感谢您阅读我的问题,并提前感谢您提供任何解决方案/建议。