当我使用 beautifulsoup 时,我会从 href 返回以下代码。
"/url?q=http://druid8.sit.aau.dk/acc_papers/kdln4ccpef78ielqg01fuabr81s1.pdf&sa=U&ei=HkNsUauqN_GQiAf5p4CwDg&ved=0CDkQFjAJ&usg=AFQjCNGk0DTzu2K2ieIKS-SXAeS5-VYTgA"
只剪切 http://.... pdf 以便我可以下载文件的最简单方法是什么?
for link in soup.findAll('a'):
try:
href = link['href']
if re.search(re.compile('\.(pdf)'), href):
print href
except KeyError:
pass