我需要提取此文本:
Line 1 text.
Line 2 text. Line 2 some more text.
Line 3 text,
Line 4 text
从这个 HTML:
...
<tr><td class="td_my_custom_text">Line 1 text.
<br>Line 2 text. Line 2 some more text.
<br>Line 3 text,
<br>Line 4 text
<br></td></tr><tr><td> </td></tr>
...
使用这个正则表达式:<td\ class="td_my_custom_text">[\s\S]*?</td>
我设法得到了一些接近但还不够接近的东西。<td class="td_my_custom_text">
,<br>
并且</td>
还在里面,我被卡住了。
- 在我的正则表达式中需要改变什么来摆脱它们?
- 是否有一些 Windows 工具可以自动执行这项工作并将刚刚提取的数据复制到新文件中?我有 5000 多个像这样的文件,我正在考虑使用正则表达式或 html 解析器制作一个小程序,但我想先知道是否有更好的方法。