我有一个 html 文件,我基本上尝试删除第一次出现的<...>
with sub
/gsub
功能。
我使用 awk 正则表达式.
*
+
来匹配<
>
. 然而,第一次出现>
的被转义(?)。我不知道是否有解决方法。
示例输入 file.txt
(x
添加不打印空):
<div>fruit</div></td>x
<span>banana</span>x
<br/>apple</td>x
代码:
awk '{gsub(/^<.*>/,""); print}' file.txt
电流输出:
x
x
x
所需的输出:
fruit</div></td>x
banana</span>x
apple</td>x