1

我有数百万个节点的决策树,在 HDFS 上序列化。任何人都可以帮我提供一些指导如何更好地进行序列化,以便我可以使用 map reduce 在 Hadoop 上更有效地执行搜索。

谢谢。

4

1 回答 1

0

那么为了遍历你的树,你需要将模型加载到内存中。加载后,执行实例的遍历非常容易和快速。您无法避免将模型存储到 hdfs 中,因此为了执行更好的遍历,您需要在主内存中做一些更好的事情。但正如我所说,树的遍历总是非常快。也许提供有关您的问题的更多信息会很好。您的问题是拥有数百万个新示例并预测它们的标签?

于 2011-12-30T18:50:48.280 回答