我正在尝试从如下所示的 HTML 输出中获取数据:
<strong>Target1NoSpaces</strong><span class="creator"> ....
<strong>Target2 With Spaces</strong><span class="creator"> ....
我正在使用管道列车将数据减少到我想要达到的目标。到目前为止,这是我的方法:
grep "/strong" output.html | awk '{print $1}'
Grep on "/strong" 以获取与目标的行;效果很好。
管道到 'awk'{print $1}'。这适用于目标没有空格的情况#1,但在目标有空格的情况#2 中失败..仅保留第一个单词,如下所示:
<strong>Target1NoSpaces</strong><span
<strong>Target2
在我的 awk 或其他命令中,您有任何关于正确击中目标的提示吗?任何快速而肮脏的东西(grep、awk、sed、perl)都会受到赞赏。