我正在尝试使用 wget 工具下载网站的内容。我使用 -R 选项来拒绝某些文件类型。但是还有一些其他文件我不想下载。这些文件命名如下,并且没有任何扩展名。
string-ID
例如:
newsbrief-02
我如何告诉 wget 不要下载这些文件(它们的名称以指定字符串开头的文件)?
因为(显然)v1.14wget
接受正则表达式 :--reject-regex
和--accept-regex
(默认情况下,如果编译支持--regex-type posix
,可以设置为)。pcre
libpcre
请注意,您似乎每次通话--reject-regex
只能使用一次。wget
也就是说,|
如果要在多个 regex 上进行选择,则必须在单个 regex 中使用:
wget --reject-regex 'expr1|expr2|…' http://example.com
您不能在wget -R
键中指定正则表达式,但可以指定模板(如 shell 中的文件模板)。
答案看起来像:
$ wget -R 'newsbrief-*' ...
您还可以使用?
和符号类[]
。
有关详细信息,请参阅信息 wget。