我有许多网页试图解析使用 curl 获得的信息。每个页面都使用 JQuery 在浏览器中加载文档时转换其内容(使用 document.ready 函数) - 主要设置 div 的类/ID。一旦加载了 Javascript 函数,这些信息就更容易解析。
我有哪些选择(最好是从命令行)执行页面的 Javascript 内容并转储转换后的 HTML?
我有许多网页试图解析使用 curl 获得的信息。每个页面都使用 JQuery 在浏览器中加载文档时转换其内容(使用 document.ready 函数) - 主要设置 div 的类/ID。一旦加载了 Javascript 函数,这些信息就更容易解析。
我有哪些选择(最好是从命令行)执行页面的 Javascript 内容并转储转换后的 HTML?
要抓取动态网页,请不要使用 curl 等静态下载工具。
如果您想抓取动态网页,请使用可以通过编程语言控制的无头网络浏览器。最流行的工具是 Selenium
http://code.google.com/p/selenium/
使用 Selenium,您可以将修改后的 DOM 树作为 HTML 从浏览器中导出。
一个示例用例: