1

我想获取站点链接到的所有 URL(在同一域上),而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接?

如果有人可以提出更好的解决方案,我正在使用它的一些背景知识:我正在尝试构建一个 robots.txt 文件,该文件排除所有以 p[4-9].html 但 robots 结尾的文件.txt 不支持正则表达式。所以我试图获取所有链接,然后对它们运行正则表达式,然后将结果放入 robots.txt 中。有任何想法吗?

4

1 回答 1

0

我的建议:将 wget 和 gawk 组合在一个(非常)小的 shell 脚本中。

维基百科上有一个很好的 AWK 概述:http ://en.wikipedia.org/wiki/AWK

于 2010-08-04T13:19:38.620 回答