linux - 尝试在没有 cut、sed、tr 命令的情况下从 bash shell 环境中下载的 html 页面中“grep”链接（仅限 e/grep）

Question

在 Linux shell 中，我试图从下载的 HTML 脚本文件中返回指向 JPG 文件的链接。到目前为止，我只到了这一点：

grep 'http://[:print:]*.jpg' 'www_page.html'

我不想使用“tr”、“cut”、“sed”等辅助命令……“lynx”没问题！

score 2 · Accepted Answer

单独使用 grep 而不按摩文件是可行的，但不推荐，正如许多人在评论中指出的那样。

如果您可以稍微放宽您的要求，那么您可以使用html tidy来处理下载的 HTML 文件，以便每个 html 实体都在一行上，这样正则表达式就可以像您想要的那样简单，如下所示：

$ tidy file.html|grep -o 'http://[[:print:]]*.jpg'

请注意使用“-o”选项来 grep 仅打印输入的匹配部分

1 回答 1