所以我一直在寻找一个从文本中提取 HTML 标签(没有属性或嵌套标签)的 Sed 命令。文本应转换如下:
<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.
变成:
This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.
我试过这个命令sed 's/^.*>\([^<]*\)<.*$/\1/'
,但它并不完全正确:(
和一个 sed 表达式,用于从字符串的开头和结尾修剪不必要的空白 [空格或制表符]。
提前致谢!:)