1

我正在尝试解析具有无限滚动的页面的 HTML。我想加载所有内容,以便我可以全部解析。我正在使用 Python。有什么提示吗?

4

2 回答 2

1

这些页面使用 AJAX 更新其 html。通常你只需要找到浏览器发送的新的 AJAX 请求,猜测 AJAX url 参数的含义,然后从 API 中获取数据。

API 服务器可能会验证 AJAX 请求的用户代理、引用者、cookie、oauth_token ...,请密切关注它们。

于 2013-10-22T08:09:49.757 回答
1

数据是

  1. 要么提前加载

  2. 或页面在您滚动时发送请求

您可以使用httpfox查找请求并发送

于 2013-10-22T08:10:50.977 回答