我正在寻找一种方法来进行一些数据聚类分析。这超出了我的范围,但我知道这是可以做到的。我正在寻找对我拥有的数据进行聚类并以可视化方式呈现的方法。想到的一个是树状图,但我也愿意接受其他建议。
是否有任何已经编写的脚本或类可以帮助我完成这项任务?我更喜欢呆在 LAMP 内。
谢谢。
我正在寻找一种方法来进行一些数据聚类分析。这超出了我的范围,但我知道这是可以做到的。我正在寻找对我拥有的数据进行聚类并以可视化方式呈现的方法。想到的一个是树状图,但我也愿意接受其他建议。
是否有任何已经编写的脚本或类可以帮助我完成这项任务?我更喜欢呆在 LAMP 内。
谢谢。
我所知道的最完整的开源工具是用于文档聚类的胡萝卜2 开源框架。它们主要以 java 和 .NET 为中心,但可以通过 REST 接口与 Ruby 和 PHP5 一起使用。应该相对容易集成到您选择使用的任何框架中。
这是他们的主页 - http://project.carrot2.org/index.html
这是他们的集群引擎和可视化的在线演示,圆形可视化可能会让您感兴趣(一旦您输入查询,就会有 3 个可视输出选项卡,它是中间的)- http://search.carrot2.org/stable/search
这是他们的商业产品 lingo3g - http://search.carrotsearch.com/carrot2-webapp/search。在对大多数查询进行聚类时,它的速度提高了 6-8 倍,提供了不同(更好?)的结果聚类,并提供了层次聚类和相应的可视化。如果你想使用它,你可以请求试用,你可以给他们发一封电子邮件,他们会给你访问所有相应的材料(如 carrot2 开源下载)和 2 个月的试用许可证。
如果这不是您要找的,而您只想要一个原始的库集合,您还可以查看 apache 的 mahout 项目。