我正在尝试使用 wget 下载 wiki 的静态镜像。我只想要每篇文章的最新版本(而不是完整的历史或版本之间的差异)。下载整个内容并稍后删除不必要的页面很容易,但这样做会花费太多时间并给服务器带来不必要的压力。
有许多页面我显然不需要,例如:
WhoIsDoingWhat?action=diff&date=1184177979
有没有办法告诉 wget 不要下载和递归包含 'action=diff' 的 URL?或者以其他方式排除与某些正则表达式匹配的 URL?
我正在尝试使用 wget 下载 wiki 的静态镜像。我只想要每篇文章的最新版本(而不是完整的历史或版本之间的差异)。下载整个内容并稍后删除不必要的页面很容易,但这样做会花费太多时间并给服务器带来不必要的压力。
有许多页面我显然不需要,例如:
WhoIsDoingWhat?action=diff&date=1184177979
有没有办法告诉 wget 不要下载和递归包含 'action=diff' 的 URL?或者以其他方式排除与某些正则表达式匹配的 URL?