python - 爬取流行论坛/公告板软件的工具

Question

我已经开始编写一个爬虫来爬取 vbulletin 板。但是，我不是网络程序员（我可以做 json api，但这并不是真正的网络爬行），因此我不知道什么是最好的爬行方式，以及可用的工具。

我完全有能力编写爬虫，但是我发现底层的 HTML 非常不规则，所以我不想成为新版本 vbulletin 中 HTML 结构变化的受害者。

我正在使用 pycurl 和美丽的汤编写一个界面。但是，有没有更好的方法来做到这一点，是否有任何好的爬虫已经可用于 vbulletin ？（语言不是问题）。元论坛爬虫（适用于多种论坛类型）会更好。

如果你不能推荐一个，你能告诉我吗，如果你有经验，从我对底层 HTML 稳定性的期望来看，我是否应该担心新版本的 vbulletin 会破坏我的爬虫？

也许有更好的方法来提取 vbulletin 数据集？

score 4 · Accepted Answer

更改 HTML 是网络爬虫的继承问题。这就是为什么它应该只是绝对的最后手段。如您所见，维护爬虫可能是一项艰巨的任务，因为 HTML 可以每天更改，并且没有保证。

因为通常搜索的数据是统一的，scrapy 是一个很好的选择。 http://doc.scrapy.org/en/0.14/index.html

它使用 xpath 来选择元素，这在 imo 中相对容易维护。

即使有一个 vbulletin 特定的刮板，它仍然依赖于可以随意破坏的 HTML。因为 vbulletin 是一个平台，所以你可能会很好地抓取它。我认为 HTML 只会在不应该那么频繁的版本更新上发生变化。

移动 API 是否为您提供所需的任何功能？ https://www.vbulletin.com/forum/content.php/367-API-Overview，我想这取决于每个站点的 vbulletin 设置。

1 回答 1