1
f=open("galcode.txt")
for element in f:
 galcode_scan = re.search(ur'http://i\.imgur\.com/\w{5,8}', element)
 if galcode_scan:
    print galcode_scan.groups()
f.close()  

本例中的 Galcode.txt 是 imgur 上画廊的 html。我正在尝试获取发布到 imgur 的画廊的所有链接的列表。如果我在输入画廊名称并收到 galcode 后运行它,我得到的只是大约 15 ()。如何获取链接列表?

谢谢

4

2 回答 2

4

您没有任何捕获组,因此.groups()返回一个空元组。改用.group()或用括号 ( ) 将您的正则表达式括起来ur'(http://i\.imgur\.com/\w{5,8})'

也就是说,我强烈建议使用 BeautifulSoup、cssselect 或任何其他 HTML 解析库。

于 2014-12-17T23:42:47.410 回答
2

最简单的方法是使用 HTML 解析器,例如Beaufitul Soup。它适用于 Python 2.7 和 3。

于 2014-12-17T23:41:10.900 回答