我在 python 中使用正则表达式从这一行的 HTML 中获取以下数据:
<td xyz="123"><a href="blah.html">This is a line</a></td>
问题是在上面的 td 行中,xyz="123"
and<a href>
是可选的,所以它不会出现在所有的表格单元格中。所以我可以有这样的 tds:
<tr><td>New line</td></tr>
<tr><td xyz="123"><a href="blah.html">CaptureThis</a></td></tr>
我这样写正则表达式:
<tr><td x?y?z?=?"?(\d\d\d)?"?>?<?a?.*?>?(.*?)?<?/?a?>?</td></tr>
我基本上想从每个 tr 中的所有 td 中捕获“123”数据(如果存在)和“CaptureThis”数据。
此正则表达式不起作用,并且正在跳过没有“xyz”数据的行。
我知道在这里使用正则表达式不是合适的解决方案,但想知道是否可以单独使用正则表达式。