我已经开始编写一个爬虫来爬取 vbulletin 板。但是,我不是网络程序员(我可以做 json api,但这并不是真正的网络爬行),因此我不知道什么是最好的爬行方式,以及可用的工具。
我完全有能力编写爬虫,但是我发现底层的 HTML 非常不规则,所以我不想成为新版本 vbulletin 中 HTML 结构变化的受害者。
我正在使用 pycurl 和美丽的汤编写一个界面。但是,有没有更好的方法来做到这一点,是否有任何好的爬虫已经可用于 vbulletin ?(语言不是问题)。元论坛爬虫(适用于多种论坛类型)会更好。
如果你不能推荐一个,你能告诉我吗,如果你有经验,从我对底层 HTML 稳定性的期望来看,我是否应该担心新版本的 vbulletin 会破坏我的爬虫?
也许有更好的方法来提取 vbulletin 数据集?