0

在 Linux shell 中,我试图从下载的 HTML 脚本文件中返回指向 JPG 文件的链接。到目前为止,我只到了这一点:

grep 'http://[:print:]*.jpg' 'www_page.html'

我不想使用“tr”、“cut”、“sed”等辅助命令……“lynx”没问题!

4

1 回答 1

2

单独使用 grep 而不按摩文件是可行的,但不推荐,正如许多人在评论中指出的那样。

如果您可以稍微放宽您的要求,那么您可以使用html tidy来处理下载的 HTML 文件,以便每个 html 实体都在一行上,这样正则表达式就可以像您想要的那样简单,如下所示:

$ tidy file.html|grep -o 'http://[[:print:]]*.jpg'

请注意使用“-o”选项来 grep 仅打印输入的匹配部分

于 2011-09-29T05:03:14.890 回答