Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我目前正在试验苏打水的可能性。有一些可能的用例,包括 H2O/Spark 中的数据处理、模型构建和离线训练以及在线流预测。我想知道是否也可以将苏打水与 Kafka 流源一起用于在线培训?
如果您不断呈现新数据,深度学习模型尤其可以永远持续训练。因此,您可以使用它进行在线培训。
像 DRM 和 GBM 这样的模型可以使用检查点从新数据中“添加另一棵树”,尽管您真的不想最终得到无穷大的树。
您可以保留一个数据窗口并定期训练一个新的完整模型。(在运行时交换一个新的模型实例非常简单。所以你可以在后台继续训练,并定期更新预测流数据的模型——比如每小时或每几分钟,或其他)。
或者通过对许多模型的预测进行平均来进行自己的集成——通过定期丢弃旧模型并在传送带类型的策略中添加新模型。类似于移动平均线。