4

我使用的最后一个是weka 。我最后一次听说 java 正在为它提出一个 API (JDM)。任何人都可以分享他们使用这些工具的经验。我最感兴趣的是使用分类/聚类工具(weka 在这里做得不错)并且该工具应该具有良好的 API 支持。

4

7 回答 7

2

我使用 Weka 进行文本分类。很不错。书不错。可以保留数据表示并修改算法的框架的想法很棒。

于 2009-01-07T08:17:42.120 回答
2

我正在使用RapidMiner(以前来自多特蒙德大学的 YALE)。它是一个基于 Java 的开源工具,实现了大多数流行的分类器/聚类方法。它还附带了为 Weka 工具包实现的算法,因此那里有更多选项。带有一个非常易于使用的 GUI,以及一个基于 Java 的 API。

于 2009-01-24T21:54:36.903 回答
1

Weka 是一个流行的数据挖掘平台,为分类、聚类等实现了许多教科书算法。它非常适合快速原型设计,即快速设置系统并验证它是否符合预期目的。

然而,Weka 有两个主要问题。首先是它是在 GPL 许可下分发的,这意味着您不能将其用作商业包的一部分,也不能对其进行修改,也不能发布更改。此外,Weka 的另一个弱点是它不能处理大量数据。如果您的数据无法放入计算机的内存中,那么您就有问题了。

Apache Mahout包解决了这两个问题。它相对较新,缺少一些功能,但根据您遇到的数据挖掘问题,它可能是您的正确选择

于 2009-05-05T09:05:03.327 回答
0

我们在为分类和聚类开发的一些软件中使用了 Weka。我不是数据挖掘方面的专家,但是评估它以及许多其他产品的团队肯定知道他们的东西,并且通常习惯于使用非常昂贵的现成产品。

于 2009-01-07T08:35:34.500 回答
0

根据 KDnuggets 2007、2008 和 2009 年年度民意调查,RapidMiner 是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案: KDnuggets Data Mining Tool Poll 2009

RapidMiner 是开源的并且 100% Java,RapidMiner 比 Weka 更灵活并且提供更多的功能。

于 2009-09-06T19:14:14.430 回答
0

您真的应该查看 Orange 数据挖掘工具包。它带有一个拖放 gui 以及一个 Python API。

于 2009-09-10T04:18:33.537 回答
0

我使用自己用 Java 开发的软件,专门从事务数据库或序列数据库中挖掘频繁模式和关联规则:

http://www.philippe-fournier-viger.com/spmf/

它提供了 46 种算法,包括一些您在任何其他流行的数据挖掘软件中都找不到的算法。有GUI版和源代码版。

于 2012-03-18T16:30:02.180 回答