command-line - wget WIKI，不获取差异页面（被正则表达式排除？）

Question

我正在尝试使用 wget 下载 wiki 的静态镜像。我只想要每篇文章的最新版本（而不是完整的历史或版本之间的差异）。下载整个内容并稍后删除不必要的页面很容易，但这样做会花费太多时间并给服务器带来不必要的压力。

有许多页面我显然不需要，例如：

WhoIsDoingWhat?action=diff&date=1184177979

有没有办法告诉 wget 不要下载和递归包含 'action=diff' 的 URL？或者以其他方式排除与某些正则表达式匹配的 URL？

score 3 · Accepted Answer

3

-R '*action=diff*,*action=edit*'

于 2009-06-01T17:55:10.303 回答

1 回答 1