0

如果您查看这样的页面:http ://www.fieg.nl/ias-demo#/

您可以看到它使用 Ajax 在您滚动到底部时动态添加内容,类似于 Google 图片的工作方式。

如果我想捕获这样的页面以进行解析,我会执行以下操作:

$page = file_get_contents("http://www.fieg.nl/ias-demo#/");

但这只会获取在任何 Ajax 发生之前最初加载的所有内容。是否可以使用 PHP 或 CURL 或任何其他程序来捕获整个页面并自动加载 Ajax 内容并同时捕获它?

此外,如果碰巧有一个奇怪的页面,它永远不会停止加载内容并且永远持续下去,我不确定该工具将如何处理它。因为在那种情况下,该工具永远不会找到 DOM 的结尾。

4

1 回答 1

1

当用户滚动到页面底部时,这些页面通过发送 ajax 请求来获取更多数据来工作。然后,javascript 将 ajax 请求的响应写入页面底部。

您需要运行像 firebug 这样的工具来分析向服务器发出的请求以检索下一页内容(使用网络面板)。找到请求 URL 后,您需要在 PHP 脚本中模拟这些请求。

不幸的是,SO 不是人们将您的脚本编写到蜘蛛网站的地方,但无论如何都有理论。

于 2012-05-10T16:07:23.057 回答