1

我一直致力于抓取网页和提取网站的元素。例如:给定一个网站 - 爬虫应返回以下部分:页眉、菜单、页脚、内容等。

我在想,如果我可以使用机器学习来训练代码来学习如何对网站进行分类,那就太好了。

我尝试查看 Python 机器学习库(例如:PyBrain),但示例非常复杂。任何人都可以向我推荐一个库和一些关于如何开始使用 Python 机器学习和一些简单示例的教程吗?

谢谢!

4

1 回答 1

2

MLPy对您来说可能是一个更简单的开始。这是分类文档的链接。顺便说一句,如果你不知道类应该是什么样子,也许你需要对你的页面进行聚类,而不是对它们进行分类。

于 2011-10-22T23:39:21.600 回答