基本上,一个页面会生成一些动态内容,我想获取该动态内容,而不仅仅是静态 html。我无法用 cURL 做到这一点。请帮忙。
问问题
4221 次
2 回答
3
你不能只使用 cURL。
cURL 将从站点中获取特定的原始(静态)文件,但要获取 javascript 生成的内容,您必须将该内容放入支持 javascript 和 javascript 使用的所有其他主机对象的类似浏览器的环境中,以便脚本可以跑。
然后,一旦脚本运行,您就必须访问 DOM 以从中获取您想要的任何内容。
这就是为什么大多数搜索引擎不索引 javascript 生成的内容。这是不容易的。
如果这是您尝试在其上收集信息的特定站点,您可能需要确切了解该站点如何获取数据本身,并查看您是否无法直接从该来源获取数据。例如,是嵌入在页面中的 JS 中的数据(在这种情况下,您可以解析出该 JS)还是从 ajax 调用获得的 JS(在这种情况下,您可以直接进行 ajax 调用)或其他一些方法。
于 2013-06-12T22:44:12.250 回答
0
你可以在http://seleniumhq.org尝试 selenium ,它支持 js。
于 2013-06-12T23:33:12.367 回答