html - 是否可以以编程方式获取网页的生成源？

Question

正如标题所述，我想知道是否有一种方法可以获取页面生成的 HTML 代码。显然，我可以使用 Web 开发人员工具（内置浏览器或外部程序）检查页面并获取它，但我真的很想自动完成。也许使用 Fiddler 的 API 是可能的？

谢谢！

score 2 · Accepted Answer

“源”在页面加载后不会被 JavaScript 更改，而是从源生成的文档对象模型 (DOM) 被更改。然后将这个 DOM 转换为 GUI，只要页面没有重新加载，每次更改都会更改。

DOM 不是一串 HTML 代码，它是页面的内存分层对象表示。浏览器不会在 DOM 被更改时维护其最新的平面文件表示，这就是为什么当您“查看源代码”时，您只会看到最初通过 HTTP 发送到浏览器的内容。

在 Firebug 等开发人员工具中，页面/DOM 的节点对节点表示是最接近重新生成源代码 (AFAIK) 的方式，而无需自己构建一些新工具。

score 0 · Accepted Answer

您也许可以在 Python 中编写一个脚本，该脚本将接受一个变量（URL）并将其插入到下载网页的命令之后，例如 wget。

谷歌搜索，我发现它可以解析 HTML 文件：也许你可以 wget index.HTML 并使用其中之一：你如何在 PHP 中解析和处理 HTML/XML？

2 回答 2