0

所以我一直在寻找一个从文本中提取 HTML 标签(没有属性或嵌套标签)的 Sed 命令。文本应转换如下:

<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

变成:

This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

我试过这个命令sed 's/^.*>\([^<]*\)<.*$/\1/',但它并不完全正确:(

和一个 sed 表达式,用于从字符串的开头和结尾修剪不必要的空白 [空格或制表符]。

提前致谢!:)

4

1 回答 1

0

正如一些人所提到的,HTML 不是正则表达式的好候选者。

不过,这可能是一个起点(在 vim 中测试)

:%s:<\([^>]*\)>\(.*\)</\1>:\2:
于 2013-10-20T16:20:32.350 回答