open-source - 数据挖掘开源工具

Question

我将从事一个数据挖掘项目。在开始之前，我想探索不同的数据挖掘工具（最好是开源的），这些工具允许基于 Web 的报告。在我的场景中，数据将提供给我，所以我不应该为它爬行。

简而言之，我正在寻找一种工具——数据分析，基于 Web 的报告，提供某种仪表板和挖掘功能。

我曾在 Microsoft Analysis Services 和 BOXI 工作过，最近我一直在研究 Pentaho，这似乎是一个不错的选择。

请分享您对任何您知道的此类工具的经验。

干杯

score 12 · Accepted Answer

我相信 WEKA 是目前最好的开源 DM 软件。

检查它：http ://www.cs.waikato.ac.nz/ml/weka/

score 9 · Accepted Answer

Weka 很棒，但您可能想尝试使用 Orange Data Mining 工具包。

http://www.ailab.si/orange/

编辑：截至 2010 年 11 月，我必须说我真的很喜欢KNIME。

score 5 · Accepted Answer

5

RapidMiner是我首选的数据挖掘工具。

于 2011-05-31T08:48:19.597 回答

score 5 · Accepted Answer

R有很多与数据挖掘相关的优秀软件包。特别是，看看：

它还与 Weka 相关联（请参阅 RWeka 包）。它可以与 .Net（通过 COM）或 Python（通过 RPy 或 RPy2）集成。

我同意将 Pentaho 作为报告平台，尽管它是一个非常大的项目，具体取决于您使用它的目的。

score 5 · Accepted Answer

您还应该查看Apache Mahout。它对于一些大规模的机器学习任务（例如用户聚类）非常有用。

score 3 · Accepted Answer

3

KEEL ( http://keel.es ) 是用 Java 编写的，非常适合使用进化计算进行数据挖掘。

于 2012-02-12T08:31:41.170 回答

score 3 · Accepted Answer

我会尝试使用新的谷歌工具。

-首先您需要获取 google-storage 的 api id，这是您要存储和操作要分析的数据的地方。

-然后您需要获取 google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html) 的 api id，在我看来这是一个很棒的外包数据挖矿处理器。预测 API 允许您从数据中获取更多信息，并使其模式更易于访问。除了使用传统的数字和名义数据外，您还可以使用文本数据，借助此 api 可以利用例如按语言对电子邮件进行分类。

- 最后，您可以使用 bigQuery，它允许您执行临时分析、标准化报告、数据探索应用程序原型 (http://code.google.com/apis/bigquery/)

score 2 · Accepted Answer

查看由 JMLR 维护的用于机器学习的开源软件列表。你可以在这里找到它：

http://mloss.org/software/

http://jmlr.csail.mit.edu/mloss/

它们代表了最先进的技术！

我对 Weka 的问题是其中的一些算法已经过时了。

score 2 · Accepted Answer

2

我相信 RapidMiner 是一个优秀的工具，应该添加到这个列表中。

于 2010-10-06T11:00:25.007 回答

score 2 · Accepted Answer

WEKA（已经提到）、Orange（http://orange.biolab.si/）、Tanagra（http://data-mining-tutorials.blogspot.com）你可以在那里找到很好的教程。

是非常好的数据挖掘工具。

score 2 · Accepted Answer

您可以查看我的软件SPMF 数据挖掘框架。

它是一个开源 Java 软件，提供 70 多种算法：

频繁项集挖掘
关联规则挖掘，
顺序模式挖掘
顺序规则挖掘。
和更多..

score 1 · Accepted Answer

1

这里列出了一些开源数据挖掘工具的列表：http: //dataminingtools.net/browse.php

于 2010-03-02T14:04:44.527 回答

score 1 · Accepted Answer

1

您可以查看Data Mining SDK及其博客。

于 2010-01-04T13:29:47.563 回答

score 1 · Accepted Answer

1

Pentaho是一个非常专业的解决方案。绝对是一个非常不错的选择。

于 2009-09-18T20:40:50.190 回答

score 1 · Accepted Answer

Weka 擅长分类和/机器学习/。对许多人来说，这被认为是人工智能的一部分，而不是实际的数据挖掘。RapidMiner 大致沿用相同的路线，但用户界面要好得多。Pentaho 是 Weka AFAICT 的专业支持。

您可能想看看 ELKI，http ://elki.dbs.ifi.lmu.de/，这是一个可比较的项目，专注于聚类算法和异常值检测，这是数据挖掘的另外两个关键任务。

score 1 · Accepted Answer

1

Eclipse BIRT http://www.eclipse.org/birt/phoenix/project/description.php

于 2010-03-09T16:00:57.137 回答

score 1 · Accepted Answer

1

我相信KNIME 也应该加入这个名单。

于 2010-06-07T03:36:51.470 回答

score 0 · Accepted Answer

你可以看看数据挖掘工具，weka

这是 WEKA 教程上的教程和视频集合的链接：http ://www.dataminingtools.net/browsetutorials.php?tag=weka

视频： http ://www.dataminingtools.net/videos.php?id=6

score 0 · Accepted Answer

除了这些工具，我强烈建议学习 Python 和 R。这些语言在分析过程中很有帮助。此外，可以“自定义分析”大型数据集。您还可以使用 Javascript 创建自己的自定义仪表板（查看众多图表和可视化库）

score -1 · Accepted Answer

我自己就是一个蟒蛇，我不得不说：

是的！所有这些都可以在 Python 中完成。

我上次玩的是 Beautiful Soup[0]。这是一个非常简单易用的模块，可让您从 html 和 xml 中获取/挖掘数据（非常适合“屏幕抓取”）。

如果您不了解python，....好吧，它真的很容易学习。

[0] http://www.crummy.com/software/BeautifulSoup/

open-source - 数据挖掘开源工具

20 回答 20

Related

Reference