regex - 如何使用bash脚本在一行中删除两个HTML标签之间的字符串

Question

我最近一直在研究一些简单的bash脚本，它解析网页中的特定数据。我曾经tr '\r\n' ' ' <file1.txt >file2.txt确保从页面中提取的所有数据都存储在file1.txt一行中。那么我需要匹配<th>...</th>这一行中标签之间的所有字符串并将它们删除或替换为' '符号。所以这里有一些示例代码：

    <td>Abaktal hm</td> </tr> <tr> <th>Package</th> <td>flm 10x400 mg</td> <th>Indesit</th>

我已经使用sed并尝试过类似的东西

    sed -i 's/\<th\>.*?\<\/th\>/ /g' output.txt

但它没有用。我认为问题出在?标志上。它适用于?登录正则表达式，但可能不适用于bash.

score 4 · Accepted Answer

虽然我同意 sputnick 和其他人的观点，但您的直接问题的答案是：

sed -ir 's/<th>[^<]+<\/th>//g'

这适用于您的示例数据。

score 0 · Accepted Answer

您的尝试似乎绝对是错误的。

看

score 0 · Accepted Answer

 <td>
     Abaktal hm
 </td>
 <th>
     Package
 </th> 
 <td>
     flm 10x400 mg</td>
 <th> 
     Indesit
 </th>

如果您有这种类型的输入，则以下命令将起作用

sed -n '//{p; ：一个; N; /</th>/!ba; s/.*\n//}; p'输出.txt

它将删除之间的内容

 <th>...</th> tags

有关使用 sed 删除两个模式（不包括在内）之间的线的更多信息

regex - 如何使用bash脚本在一行中删除两个HTML标签之间的字符串

3 回答 3

Related

Reference