3

我正在审核我们现有的 Web 应用程序,它大量使用HTML 框架。我想下载每一帧中的所有 HTML,有没有一种方法可以用wget或一些脚本来做到这一点?

4

3 回答 3

6

作为史蒂夫回答的补充:

跨越到任何主机——'-H'</p>

'-H' 选项打开主机跨越,从而允许 Wget 的递归运行访问链接引用的任何主机。除非应用了足够的递归限制标准,否则这些外部主机通常会链接到更多主机,依此类推,直到 Wget 最终吸收的数据比您预期的要多得多。

限制跨越到某些域——'-D'</p>

“-D”选项允许您指定将遵循的域,从而将递归限制为仅属于这些域的主机。显然,这仅在与“-H”结合使用时才有意义。

一个典型的例子是下载“www.server.com”的内容,但允许从“images.server.com”等下载:

      wget -rH -Dserver.com http://www.server.com/

您可以指定多个地址,用逗号分隔它们,

例如'-Ddomain1.com,domain2.com'。

取自:wget手册

于 2008-09-22T19:14:23.493 回答
1
wget --recursive --domains=www.mysite.com http://www.mysite.com

这表明递归爬网也应该遍历帧和 iframe。请注意将递归范围仅限于您的网站,因为您可能不想爬取整个网络。

于 2008-09-22T19:10:53.143 回答
1

wget 有一个 -r 选项可以使其递归,请尝试wget -r -l1 (以防字体难以阅读:最后一部分是小写 L 后跟数字一) -l1 部分告诉它递归最大深度为 1。尝试使用这个数字来刮更多。

于 2008-09-22T19:21:05.333 回答