我在 python 中使用正则表达式从 html 中提取数据。我写的正则表达式是这样的:
result = re.findall(r'<td align="left" csk="(\d\d\d\d)\d\d\d\d"><a href=.?*>(.*?)</a></td>\s+|<td align="lef(.*?)" >(.*?)</td>\s+', webpage)
假设这将遵循以下任一格式的 td -
<td align="left" csk="(\d\d\d\d)\d\d\d\d"><a href=.?*>(.*?)</a></td>\s+
或者
<td align="lef(.*?)" >(.*?)</td>
这是因为 td 可以在该特定单元格中采用不同的格式(或者有带有链接的数据,或者甚至根本没有数据)。
我假设我使用的 OR 条件不正确 - 相信 OR 仅匹配正则表达式前面的“just”和正则表达式后面的“just”,而不是两个完整的 td 标签之间。
我的问题是,我如何对它进行分组(例如用括号),以便 OR 在整个 td 标签之间匹配。