我想访问亚马逊内给定类别中的所有项目,但似乎类别页面是通过搜索生成的。在 URL 中碰撞页面搜索参数只会将您带到第 100 页。有什么办法可以克服吗?这是书籍的示例网址
问问题
929 次
1 回答
1
使用 ajax XHR 调用动态加载内容。
长话短说:
- 打开浏览器开发工具
- 打开网络选项卡
- 点击亚马逊上的页面链接
- 请参阅 XHR 请求将要执行的操作
http://www.amazon.com/mn/search/ajax/ref=sr_pg_3...
- 这就是您应该在 Scrapy 蜘蛛中调用的内容(返回 JSON)
所以,基本上,你应该只调用这个 XHR 请求 100 次(或者看看你是否可以把它们全部合二为一)。
有用的链接:
笔记:
- 亚马逊将搜索结果限制为 100 页
- 您可以尝试 amazon API 而不是直接抓取网站。请参阅 适用于 Python 的 Amazon API 库?.
希望有帮助。
于 2013-04-24T13:53:06.873 回答