0

我已经开始编写一个爬虫来爬取 vbulletin 板。但是,我不是网络程序员(我可以做 json api,但这并不是真正的网络爬行),因此我不知道什么是最好的爬行方式,以及可用的工具。

我完全有能力编写爬虫,但是我发现底层的 HTML 非常不规则,所以我不想成为新版本 vbulletin 中 HTML 结构变化的受害者。

我正在使用 pycurl 和美丽的汤编写一个界面。但是,有没有更好的方法来做到这一点,是否有任何好的爬虫已经可用于 vbulletin ?(语言不是问题)。元论坛爬虫(适用于多种论坛类型)会更好。

如果你不能推荐一个,你能告诉我吗,如果你有经验,从我对底层 HTML 稳定性的期望来看,我是否应该担心新版本的 vbulletin 会破坏我的爬虫?

也许有更好的方法来提取 vbulletin 数据集?

4

1 回答 1

4

更改 HTML 是网络爬虫的继承问题。这就是为什么它应该只是绝对的最后手段。如您所见,维护爬虫可能是一项艰巨的任务,因为 HTML 可以每天更改,并且没有保证。

因为通常搜索的数据是统一的,scrapy 是一个很好的选择。 http://doc.scrapy.org/en/0.14/index.html

它使用 xpath 来选择元素,这在 imo 中相对容易维护。

即使有一个 vbulletin 特定的刮板,它仍然依赖于可以随意破坏的 HTML。因为 vbulletin 是一个平台,所以你可能会很好地抓取它。我认为 HTML 只会在不应该那么频繁的版本更新上发生变化。

移动 API 是否为您提供所需的任何功能? https://www.vbulletin.com/forum/content.php/367-API-Overview,我想这取决于每个站点的 vbulletin 设置。

于 2012-05-01T17:26:02.220 回答