我正在寻找创建一个快速脚本,但我遇到了一些问题。
<li type="square"> Y </li>
我基本上是使用 wget 下载 HTML 文件,然后尝试在文件中搜索上述代码段。Y 是动态的,并且每次都在变化,因此其中一个可能是“Dave”,另一个可能是“Chris”。所以我试图让bash脚本找到
<li type="square"> </li>
并告诉我两者之间是什么。文件的一般格式非常混乱:
<html stuff tags><li type="square">Dave</li><more html stuff>
<br/><html stuff>
<br/><br/><li type="square">Chris</li><more html stuff><br/>
我一直无法想出任何适用于解析文件的方法,并且非常感谢有人能推动我朝着正确的方向前进。
编辑 -
<div class="post">
<hr class="hrcolor" width="100%" size="1" />
<div class="inner" id="msg_4287022"><ul class="bbc_list"><li type="square">-dave</li><li type="square">-chris</li><li type="square">-sarah</li><li type="square">-amber</li></ul><br /></div>
</div>
是我要从中提取名称的代码块。“-”符号被添加到列表中以最小化其范围,所以我只是得到那个列表。我遇到的问题是:
awk '{print $2}' FS='(<[^>]*>)+-' 4287022.html > output.txt
只输出第一个列表项,而不是其余的。