html - 抓取多框架网站

Question

我正在审核我们现有的 Web 应用程序，它大量使用HTML 框架。我想下载每一帧中的所有 HTML，有没有一种方法可以用wget或一些脚本来做到这一点？

score 6 · Accepted Answer

作为史蒂夫回答的补充：

跨越到任何主机——'-H'</p>

'-H' 选项打开主机跨越，从而允许 Wget 的递归运行访问链接引用的任何主机。除非应用了足够的递归限制标准，否则这些外部主机通常会链接到更多主机，依此类推，直到 Wget 最终吸收的数据比您预期的要多得多。

限制跨越到某些域——'-D'</p>

“-D”选项允许您指定将遵循的域，从而将递归限制为仅属于这些域的主机。显然，这仅在与“-H”结合使用时才有意义。

一个典型的例子是下载“www.server.com”的内容，但允许从“images.server.com”等下载：

      wget -rH -Dserver.com http://www.server.com/

您可以指定多个地址，用逗号分隔它们，

例如'-Ddomain1.com,domain2.com'。

score 1 · Accepted Answer

wget --recursive --domains=www.mysite.com http://www.mysite.com

这表明递归爬网也应该遍历帧和 iframe。请注意将递归范围仅限于您的网站，因为您可能不想爬取整个网络。

score 1 · Accepted Answer

wget 有一个 -r 选项可以使其递归，请尝试wget -r -l1 （以防字体难以阅读：最后一部分是小写 L 后跟数字一） -l1 部分告诉它递归最大深度为 1。尝试使用这个数字来刮更多。

3 回答 3