cluster-analysis - 是否有众所周知的分类器库？

Question

我正在从互联网上抓取数据，没有分类。

有这样的图书馆推荐吗？

编辑

我正在从其他网站抓取工作，我需要将它们分组到不同的行业。

score 1 · Accepted Answer

要将未标记的数据分组，您需要聚类，而不是分类。最完整的机器学习库是基于 Java 的Weka。您可能希望首先从网页中提取文本（完全删除脚本和样式元素，去除其他标签），然后在执行聚类之前通过 StringToWordVector 过滤器运行文本。

score 0 · Accepted Answer

我现在的雇主开发了一个系统来对网页进行分类。我们找不到任何有用的库，所以我们必须自己做。我们不许可我们的。

我可以给你一些提示。垃圾邮件分析器将电子邮件分类为垃圾邮件或非垃圾邮件。您可以使用相同的工具（例如贝叶斯、CRM-114 等）对任何文本（包括网页）进行自己的分类。

你必须非常仔细地观察这些结果，并给他们很多人工反馈。您经常可以找到对您来说得分很高的关键字集。找到这些关键字集需要时间和精力，并且会随着时间的推移而改变。

您将不得不编写代码将网页划分为主题部分，因为大多数页面并非都是一回事。有广告框架、导航和其他东西。

2 回答 2