我最近一直在研究一些简单的bash脚本,它解析网页中的特定数据。我曾经tr '\r\n' ' ' <file1.txt >file2.txt确保从页面中提取的所有数据都存储在file1.txt一行中。那么我需要匹配<th>...</th>这一行中标签之间的所有字符串并将它们删除或替换为' '符号。所以这里有一些示例代码:
<td>Abaktal hm</td> </tr> <tr> <th>Package</th> <td>flm 10x400 mg</td> <th>Indesit</th>
我已经使用sed并尝试过类似的东西
sed -i 's/\<th\>.*?\<\/th\>/ /g' output.txt
但它没有用。我认为问题出在?标志上。它适用于?登录正则表达式,但可能不适用于bash.