我正在使用 Notepad++ 来清理一个又长又乱的 HTML 表格,并且我正在尝试使用正则表达式。
我需要删除所有不包含特定值的表行(我可以称之为子字符串吗?)。
解包所有文件内容后,我可以使用以下正则表达式逐个选择每个表行及其所有内容:
<tr>.+?</tr>
如何改进正则表达式以便仅选择和替换包含定义的子字符串<td>
的表行,在它们的一部分内内?
我不知道这是否重要,但每个表格行的结构如下(我已将每个 HTML 标记放在那里,点代表标准内容/值)
<tr>
<td> ... </td>
<td> ... </td>
<td> <a sfref="..." href="...">!! SUBSTRING I HAVE TO MATCH HERE !!</a> </td>
<td> <img /> </td>
<td> ... </td>
<td> ... </td>
<td> ... </td>
<td> ... </td>
</tr>