我遇到了一些正则表达式问题。
我有一个巨大的 html 文件,我需要从文件中提取一些文本(型号)。
<table>......
<td colspan="2" align="center" class="thumimages"><b>SK10014</b></td></tr>
.......
<table>/.....
<td colspan="2" align="center" class="thumimages"><b>SK1998</b></td></tr>
.... so on
这是一个巨大的页面,所有网页都内置在表格中并且没有 div...
“thumimages”类几乎在所有 td 中重复,因此无法区分页面中的所需内容。
大约有 10000 个型号,我需要提取它们。
有没有办法用正则表达式做到这一点......就像
"/<td colspan="2" align="center" class="thumimages"><b>{[1-9]}</b></td></tr>/"
并返回所有匹配结果的数组。注意我尝试过 HTML 解析,但文档包含许多 html 验证错误。
任何帮助将不胜感激...