1

免责声明:为我的愚蠢找借口,但我不是网络程序员:D

我正在尝试使用 python scrapy 编写爬虫。当我查看这个vbulletin board 时,我遇到了一些奇怪的行为。当我在 firefox 中加载页面并使用 firefox/firebug 检查它时,我看到论坛 L1 标题具有类forumbit_nopost new L1(您可以在文档中搜索 cat117 以获取感兴趣的元素)。

当我使用 scrappy 或 curl 检索文档时,我将类设置为forumbit_nopost old L1. 我在使用 curl 时更改了用户代理以匹配 firefox 并且没有任何区别,所以我怀疑它与一些 javascript 执行有关。我尝试在 firefox 中禁用 javascript,但 firefox 仍然有具有new类属性变体的源。

有人可以向我解释发生了什么吗?:D

Ps,chrome也看到了old变体。

使用的 curl 命令:

curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch
4

1 回答 1

0

我敢打赌,新意味着自您上次访问以来有新帖子。您的脚本永远不会显示此内容,除非它在会话之间保留 cookie。

于 2012-05-02T23:57:17.473 回答