我想下载使用 javascript 输出数据的网页。Wget 可以做其他所有事情,但运行 javascript。
甚至像:firefox -remote "saveURL(www.mozilla.org, myfile.html)"
会很棒(不幸的是,这种命令不存在)。
我想下载使用 javascript 输出数据的网页。Wget 可以做其他所有事情,但运行 javascript。
甚至像:firefox -remote "saveURL(www.mozilla.org, myfile.html)"
会很棒(不幸的是,这种命令不存在)。
我会看看 selenium 浏览器自动化工具 ( http://seleniumhq.org/ ) - 您可以自动访问网页,并保存生成的 HTML。
我们在之前的项目中使用它来实现类似的目的,取得了巨大的成功。
我赞同 Alex 对 Selenium 的建议。它在浏览器中运行,因此它可以在 Javascript 修改 DOM 后捕获输出 HTML。
使用浏览器驱动的方法的问题是很难自动化抓取过程。
在您最喜欢的编程语言中寻找“无头浏览器”。或者,您可以使用Jaxer加载 DOM 服务器端,执行 JavaScript 并让它操作 DOM,然后使用您已经熟悉的相同 JavaScript 抓取修改后的 DOM。这将是我的首选方法。