好吧,这很容易,但我无法弄清楚。
基本上我想<a href="[^<>]*">[^<>]*</a>
从一个大html
文件中提取所有链接()。
我试图用 来做到这一点sed
,但我得到了各种各样的结果,只是不是我想要的。我知道我的正则表达式是正确的,因为我可以替换文件中的所有链接:
sed 's_<a href="[^<>]*">[^<>]*</a>_TEST_g'
如果我在类似的东西上运行它
<div><a href="http://wwww.google.com">A google link</a></div>
<div><a href="http://wwww.google.com">A google link</a></div>
我明白了
<div>TEST</div>
<div>TEST</div>
我怎样才能摆脱其他一切而只打印匹配项?我更喜欢的最终结果是:
<a href="http://wwww.google.com">A google link</a>
<a href="http://wwww.google.com">A google link</a>
PS。我知道我的正则表达式不是最灵活的,但对于我的意图来说已经足够了。