我最近一直在研究一些简单的bash
脚本,它解析网页中的特定数据。我曾经tr '\r\n' ' ' <file1.txt >file2.txt
确保从页面中提取的所有数据都存储在file1.txt
一行中。那么我需要匹配<th>...</th>
这一行中标签之间的所有字符串并将它们删除或替换为' '
符号。所以这里有一些示例代码:
<td>Abaktal hm</td> </tr> <tr> <th>Package</th> <td>flm 10x400 mg</td> <th>Indesit</th>
我已经使用sed
并尝试过类似的东西
sed -i 's/\<th\>.*?\<\/th\>/ /g' output.txt
但它没有用。我认为问题出在?
标志上。它适用于?
登录正则表达式,但可能不适用于bash
.