我需要一个分布式文本聚类框架来支持包含一组完整文档的算法。像carrot2 http://project.carrot2.org/这样的应用程序在内存计算中处理一组文档,因此非常耗时且非常高效。如果像 lingo、STC、knn 等这种文本聚类算法可以在分布式环境中运行,它们会更快。是否有任何框架使用像 hazelcast http://www.hazelcast.com/这样的开源工具,或者是否有任何更快速和性能效率更高的特定方法。
问问题
340 次
2 回答
0
很少有工具可以做到这一点,Mahout 就是其中之一。Mahout 支持 3 种机器学习算法,推荐、聚类和分类。曼宁的行动书中的 Mahout 很好地解释了这一点。请参阅有关Mahout 和 Hadoop 分布式文件系统如何工作的用例的博客,该示例更侧重于推荐引擎,但它也可以应用于集群,如mahout in action第 7 章所述。作为这方面的先驱,我还编写了一个组件架构,说明这些工具中的每一个如何组合在一起解决数据挖掘问题。
Mahout 将在独立模式下以及与 Hadoop 一起工作。使用其中任何一个的决定归结为需要挖掘的历史数据的大小。如果数据大小为 TB 和 PB 量级,则通常将 Mahout 与 Hadoop 结合使用。Weka 是另一个类似的开源项目。所有这些都属于称为机器学习框架的类别。我希望它有所帮助。
于 2012-06-30T19:21:33.257 回答
0
Apache Mahout是您正在寻找的。
于 2012-06-20T17:52:00.473 回答