我是一只需要你帮助的年轻蚱蜢。我做了很多研究,似乎找不到解决方案。我在下面编写了以下代码。运行时它不会提取任何标题。我相信我的正则表达式是正确的。不确定是什么问题。对于经验丰富的老师来说可能是显而易见的。提前致谢。
from urllib import urlopen
import re
url = urlopen('http://www.realclearpolitics.com/epolls/2012/senate/ma/massachusetts_senate_brown_vs_warren-2093.html#polls').read()
'''
a href="http://multimedia.heraldinteractive.com/misc/umlrvnov2012final.pdf">Title a>
'''
A = 'a href.*pdf">(expression to pull everything) a>'
B = re.compile(A)
C = re.findall(B,url)
print C