regex - 使用 'sed' 修剪 HTMl 标签和不必要的空白

Question

所以我一直在寻找一个从文本中提取 HTML 标签（没有属性或嵌套标签）的 Sed 命令。文本应转换如下：

<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

变成：

This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

我试过这个命令sed 's/^.*>$[^<]*$<.*$/\1/'，但它并不完全正确:(

和一个 sed 表达式，用于从字符串的开头和结尾修剪不必要的空白 [空格或制表符]。

提前致谢！:)

score 0 · Accepted Answer

正如一些人所提到的，HTML 不是正则表达式的好候选者。

不过，这可能是一个起点（在 vim 中测试）

:%s:<\([^>]*\)>\(.*\)</\1>:\2:

1 回答 1