我需要编写一个 shell 脚本来读取 html 文件sample.html
并根据另一个表列从表列中提取数据。例如,这是 HTML 代码:
<table style="BORDER-COLLAPSE: collapse"
border="0" bordercolor="#000000"
cellpadding="3" cellspacing="0" width="100%" height="200">
<tr >
<td class="fontStyleOne" width="30%">
<div align="left">
core6690.myserverdomain.com </div>
</td>
<td class="tdfontTwo" width="30%">
<div class="label-styler" align="left">
admin</div>
</td>
</tr>
<tr >
<td class="fontStyleOne" width="30%">
<div align="left">
core6691.myserverdomain.com </div>
</td>
<td class="tdfontTwo" width="30%">
<div class="label-styler" align="left">
secondary </div>
</td>
</tr>
<tr >
<td class="fontStyleOne" width="30%">
<div align="left">
core6692.myserverdomain.com </div>
</td>
<td class="tdfontTwo" width="30%">
<div class="label-styler" align="left">
primary </div>
</td>
</tr>
</table>
假设我想确定“admin”的 URL,那么结果将是 core6690.myserverdomain.com;如果我的输入是“主要”,那么输出将是“core6692.myserverdomain.com”等等......
HTML 页面有更多数据、页眉标签、页脚内容等,但我要查找的重要内容放在一个表中,其结构与我在代码中列出的完全相同......除了它还有更多行,不一定像本例中那样只有 3 行。
我在这个网站上看到了 seg、grep、正则表达式、awk 和其他工具的相关答案,但是它们都没有足够接近我正在寻找的东西......另外我对任何方法都没有太多经验作为修改并使它们适合我的需要。
有什么建议么?提前致谢。