我正在寻找一种伪蜘蛛网站的方法。关键是我实际上并不想要内容,而是一个简单的 URI 列表。使用Wget选项,我可以相当接近这个想法--spider
,但是当通过 a 管道输出时grep
,我似乎找不到合适的魔法来使它工作:
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
过滤器grep
似乎对wget
输出完全没有影响。我是不是出了什么问题,还是我应该尝试另一种更适合提供这种有限结果集的工具?
更新
所以我刚刚发现离线时,默认情况下会wget
写入stderr。我在手册页中错过了它(事实上,如果它在那里,我仍然没有找到它)。一旦我将返回值通过管道传输到标准输出,我就更接近了我需要的东西:
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
如果有的话,我仍然会对做这种事情的其他/更好的方法感兴趣。