regex - 解析网页，使用re，如何确定找到的字符串的行？

Question

我正在使用如下代码查看 python 中的网站：

import urllib
import urllib2
import re

aResp = aResp = urllib2.urlopen("http://stackoverflow.com/");

web_pg = aResp.read();

pattern = "<title>Stack Overflow</title>"

m = re.search(pattern, web_pg)

if m:
   print "found"

else:
   print "Nothing found"

我试图在这之后查看标签并在其中进行测试。有没有什么简单的方法可以查到这些信息？？？？如果它更简单，我可以使用只给出 m 的行号和获取该行的 HTML 代码的方法。

score 0 · Accepted Answer

要捕获文本，请使用 () 大括号，如下所示：

import urllib
import urllib2
import re

aResp = aResp = urllib2.urlopen("http://stackoverflow.com/");

web_pg = aResp.read();

pattern = "<title>(.*?)</title>"

m = re.search(pattern, web_pg)

if m:
   print m.group(1)

else:
   print "Nothing found"

.group() 函数返回匹配项的第一次出现。

regex - 解析网页，使用re，如何确定找到的字符串的行？

1 回答 1

Related

Reference