1

我正在尝试在具有已知模式的 HTML 页面中查找字符串。例如,在以下 HTML 代码中:

<TABLE WIDTH="100%">
<TR><TD ALIGN="LEFT" width="50%">&nbsp;</TD>
<TD ALIGN=RIGHT VALIGN=BOTTOM WIDTH=50%><FONT SIZE=-1>( <STRONG>1</STRONG></FONT> <FONT SIZE=-2>of</FONT> <STRONG><FONT SIZE=-1>1</STRONG> )</FONT></TD></TR></TABLE>
<HR>
<TABLE WIDTH="100%">
<TR>    <TD ALIGN="LEFT" WIDTH="50%"><B>String 1</B></TD>
    <TD ALIGN="RIGHT" WIDTH="50%"><B><A Name=h1 HREF=#h0></A><A  HREF=#h2></A><B><I></I></B>String</B></TD>
</TR>
<TR><TD ALIGN="LEFT" WIDTH="50%"><b>String 2.</B>
</TD>
<TD ALIGN="RIGHT" WIDTH="50%"> <B>
String 3
</B></TD>
</TR>
</TABLE>
<HR>
<font size="+1">String 4</font><BR>
...

我想找到String 4,我知道它总是介于

<HR><font size="+1">
</font><BR>

如何使用 RE 搜索字符串?

编辑:

我尝试了以下方法,但没有成功:

p = re.match('<HR><font size="+1">(.*?)</font><BR>',html)

谢谢。

4

3 回答 3

3
re.findall(r'<HR>\s*<font size="\+1">(.*?)</font><BR>', html, re.DOTALL)

findall正在返回一个列表,其中包含正则表达式中括号之间捕获的所有内容。我使用了 re.DOTALL,所以点也捕获了行尾。

我使用\s*是因为我不确定是否会有空格。

于 2012-07-02T14:07:41.613 回答
2

这可行,但可能不是很健壮:

import re
r = re.compile('<HR>\s?<font size="\+1">(.+?)</font>\s?<BR>', re.IGNORECASE)
r.findall(html)

使用适当的 HTML 解析器会更好。BeautifulSoup 非常好用且易于使用。查一下。

于 2012-07-02T12:57:20.907 回答
0
re.findall(r'<HR>\n<font size="\+1">([^<]*)<\/font><BR>', html, re.MULTILINE)
于 2012-07-02T13:02:06.820 回答