正如标题所述,我想知道是否有一种方法可以获取页面生成的 HTML 代码。显然,我可以使用 Web 开发人员工具(内置浏览器或外部程序)检查页面并获取它,但我真的很想自动完成。也许使用 Fiddler 的 API 是可能的?
谢谢!
“源”在页面加载后不会被 JavaScript 更改,而是从源生成的文档对象模型 (DOM) 被更改。然后将这个 DOM 转换为 GUI,只要页面没有重新加载,每次更改都会更改。
DOM 不是一串 HTML 代码,它是页面的内存分层对象表示。浏览器不会在 DOM 被更改时维护其最新的平面文件表示,这就是为什么当您“查看源代码”时,您只会看到最初通过 HTTP 发送到浏览器的内容。
在 Firebug 等开发人员工具中,页面/DOM 的节点对节点表示是最接近重新生成源代码 (AFAIK) 的方式,而无需自己构建一些新工具。
您也许可以在 Python 中编写一个脚本,该脚本将接受一个变量(URL)并将其插入到下载网页的命令之后,例如 wget。
谷歌搜索,我发现它可以解析 HTML 文件:也许你可以 wget index.HTML 并使用其中之一: 你如何在 PHP 中解析和处理 HTML/XML?