web-crawler - 如何收集没有内容的网站上的所有链接？

Question

我想获取站点链接到的所有 URL（在同一域上），而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接？

如果有人可以提出更好的解决方案，我正在使用它的一些背景知识：我正在尝试构建一个 robots.txt 文件，该文件排除所有以 p[4-9].html 但 robots 结尾的文件.txt 不支持正则表达式。所以我试图获取所有链接，然后对它们运行正则表达式，然后将结果放入 robots.txt 中。有任何想法吗？

score 0 · Accepted Answer

我的建议：将 wget 和 gawk 组合在一个（非常）小的 shell 脚本中。

维基百科上有一个很好的 AWK 概述：http ://en.wikipedia.org/wiki/AWK

web-crawler - 如何收集没有内容的网站上的所有链接？

1 回答 1

Related

Reference