java - 使用什么数据挖掘应用程序？

Question

我使用的最后一个是weka 。我最后一次听说 java 正在为它提出一个 API (JDM)。任何人都可以分享他们使用这些工具的经验。我最感兴趣的是使用分类/聚类工具（weka 在这里做得不错）并且该工具应该具有良好的 API 支持。

score 2 · Accepted Answer

我使用 Weka 进行文本分类。很不错。书也不错。可以保留数据表示并修改算法的框架的想法很棒。

score 2 · Accepted Answer

我正在使用RapidMiner（以前来自多特蒙德大学的 YALE）。它是一个基于 Java 的开源工具，实现了大多数流行的分类器/聚类方法。它还附带了为 Weka 工具包实现的算法，因此那里有更多选项。带有一个非常易于使用的 GUI，以及一个基于 Java 的 API。

score 1 · Accepted Answer

Weka 是一个流行的数据挖掘平台，为分类、聚类等实现了许多教科书算法。它非常适合快速原型设计，即快速设置系统并验证它是否符合预期目的。

然而，Weka 有两个主要问题。首先是它是在 GPL 许可下分发的，这意味着您不能将其用作商业包的一部分，也不能对其进行修改，也不能发布更改。此外，Weka 的另一个弱点是它不能处理大量数据。如果您的数据无法放入计算机的内存中，那么您就有问题了。

Apache Mahout包解决了这两个问题。它相对较新，缺少一些功能，但根据您遇到的数据挖掘问题，它可能是您的正确选择

score 0 · Accepted Answer

我们在为分类和聚类开发的一些软件中使用了 Weka。我不是数据挖掘方面的专家，但是评估它以及许多其他产品的团队肯定知道他们的东西，并且通常习惯于使用非常昂贵的现成产品。

score 0 · Accepted Answer

根据 KDnuggets 2007、2008 和 2009 年年度民意调查，RapidMiner 是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案： KDnuggets Data Mining Tool Poll 2009

RapidMiner 是开源的并且 100% Java，RapidMiner 比 Weka 更灵活并且提供更多的功能。

score 0 · Accepted Answer

您真的应该查看 Orange 数据挖掘工具包。它带有一个拖放 gui 以及一个 Python API。

score 0 · Accepted Answer

我使用自己用 Java 开发的软件，专门从事务数据库或序列数据库中挖掘频繁模式和关联规则：

它提供了 46 种算法，包括一些您在任何其他流行的数据挖掘软件中都找不到的算法。有GUI版和源代码版。

7 回答 7