我将从事一个数据挖掘项目。在开始之前,我想探索不同的数据挖掘工具(最好是开源的),这些工具允许基于 Web 的报告。在我的场景中,数据将提供给我,所以我不应该为它爬行。
简而言之,我正在寻找一种工具——数据分析,基于 Web 的报告,提供某种仪表板和挖掘功能。
我曾在 Microsoft Analysis Services 和 BOXI 工作过,最近我一直在研究 Pentaho,这似乎是一个不错的选择。
请分享您对任何您知道的此类工具的经验。
干杯
我将从事一个数据挖掘项目。在开始之前,我想探索不同的数据挖掘工具(最好是开源的),这些工具允许基于 Web 的报告。在我的场景中,数据将提供给我,所以我不应该为它爬行。
简而言之,我正在寻找一种工具——数据分析,基于 Web 的报告,提供某种仪表板和挖掘功能。
我曾在 Microsoft Analysis Services 和 BOXI 工作过,最近我一直在研究 Pentaho,这似乎是一个不错的选择。
请分享您对任何您知道的此类工具的经验。
干杯
我相信 WEKA 是目前最好的开源 DM 软件。
Weka 很棒,但您可能想尝试使用 Orange Data Mining 工具包。
编辑:截至 2010 年 11 月,我必须说我真的很喜欢KNIME。
RapidMiner是我首选的数据挖掘工具。
R有很多与数据挖掘相关的优秀软件包。特别是,看看:
它还与 Weka 相关联(请参阅 RWeka 包)。它可以与 .Net(通过 COM)或 Python(通过 RPy 或 RPy2)集成。
我同意将 Pentaho 作为报告平台,尽管它是一个非常大的项目,具体取决于您使用它的目的。
您还应该查看Apache Mahout。它对于一些大规模的机器学习任务(例如用户聚类)非常有用。
KEEL ( http://keel.es ) 是用 Java 编写的,非常适合使用进化计算进行数据挖掘。
我会尝试使用新的谷歌工具。
-首先您需要获取 google-storage 的 api id,这是您要存储和操作要分析的数据的地方。
-然后您需要获取 google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html) 的 api id,在我看来这是一个很棒的外包数据挖矿处理器。预测 API 允许您从数据中获取更多信息,并使其模式更易于访问。除了使用传统的数字和名义数据外,您还可以使用文本数据,借助此 api 可以利用例如按语言对电子邮件进行分类。
- 最后,您可以使用 bigQuery,它允许您执行临时分析、标准化报告、数据探索应用程序原型 (http://code.google.com/apis/bigquery/)
查看由 JMLR 维护的用于机器学习的开源软件列表。你可以在这里找到它:
http://jmlr.csail.mit.edu/mloss/
它们代表了最先进的技术!
我对 Weka 的问题是其中的一些算法已经过时了。
我相信 RapidMiner 是一个优秀的工具,应该添加到这个列表中。
WEKA(已经提到)、Orange(http://orange.biolab.si/)、Tanagra(http://data-mining-tutorials.blogspot.com)你可以在那里找到很好的教程。
是非常好的数据挖掘工具。
这里列出了一些开源数据挖掘工具的列表:http: //dataminingtools.net/browse.php
您可以查看Data Mining SDK及其博客。
Pentaho是一个非常专业的解决方案。绝对是一个非常不错的选择。
Weka 擅长分类和/机器学习/。对许多人来说,这被认为是人工智能的一部分,而不是实际的数据挖掘。RapidMiner 大致沿用相同的路线,但用户界面要好得多。Pentaho 是 Weka AFAICT 的专业支持。
您可能想看看 ELKI,http ://elki.dbs.ifi.lmu.de/,这是一个可比较的项目,专注于聚类算法和异常值检测,这是数据挖掘的另外两个关键任务。
我相信KNIME 也应该加入这个名单。
你可以看看数据挖掘工具,weka
这是 WEKA 教程上的教程和视频集合的链接:http ://www.dataminingtools.net/browsetutorials.php?tag=weka
除了这些工具,我强烈建议学习 Python 和 R。这些语言在分析过程中很有帮助。此外,可以“自定义分析”大型数据集。您还可以使用 Javascript 创建自己的自定义仪表板(查看众多图表和可视化库)
我自己就是一个蟒蛇,我不得不说:
是的!所有这些都可以在 Python 中完成。
我上次玩的是 Beautiful Soup[0]。这是一个非常简单易用的模块,可让您从 html 和 xml 中获取/挖掘数据(非常适合“屏幕抓取”)。
如果您不了解python,....好吧,它真的很容易学习。