我需要的是,如果我得到一个网页的 URL,我必须从中提取所有文本。现在,当您像 fb 时间轴一样将它们向下滚动到末尾时,网页会进一步加载。我如何以编程方式从这些网页中提取文本?有什么想法/例子吗?
问问题
1199 次
2 回答
1
从网页获取动态加载的内容变得越来越复杂。
一个建议是,打开您的浏览器开发人员面板并查看网络选项卡。如果您可以破译 AJAX 调用背后的逻辑,那么您可以自己调用这些 URL,例如使用 PHP file_get_contents
。类似的东西http://url.com/morecontent.php?offset=20
。
另一个建议是使用像 phantom.js 这样的无头浏览器,它包含自己的 javascript 引擎并且可以通过编程方式控制 - http://phantomjs.org/
于 2013-05-25T10:36:46.763 回答
-2
您可以使用 cURL。这是示例代码。
于 2013-05-25T10:38:59.220 回答