我正在从互联网上抓取数据,没有分类。
有这样的图书馆推荐吗?
编辑
我正在从其他网站抓取工作,我需要将它们分组到不同的行业。
要将未标记的数据分组,您需要聚类,而不是分类。最完整的机器学习库是基于 Java 的Weka。您可能希望首先从网页中提取文本(完全删除脚本和样式元素,去除其他标签),然后在执行聚类之前通过 StringToWordVector 过滤器运行文本。
我现在的雇主开发了一个系统来对网页进行分类。我们找不到任何有用的库,所以我们必须自己做。我们不许可我们的。
我可以给你一些提示。垃圾邮件分析器将电子邮件分类为垃圾邮件或非垃圾邮件。您可以使用相同的工具(例如贝叶斯、CRM-114 等)对任何文本(包括网页)进行自己的分类。
你必须非常仔细地观察这些结果,并给他们很多人工反馈。您经常可以找到对您来说得分很高的关键字集。找到这些关键字集需要时间和精力,并且会随着时间的推移而改变。
您将不得不编写代码将网页划分为主题部分,因为大多数页面并非都是一回事。有广告框架、导航和其他东西。