1
4

2 回答 2

3

这不是诀窍吗?

for a in soup.find_all('a', href=True):
    print a['href']

如果您需要,可以在以下位置使用 attrs find_all

soup.find_all("div", {"style": "display:inline; position:relative;"})

去除空格并使链接成为绝对链接:

import urlparse
urlparse.urljoin(url, a['href'].strip())
于 2013-01-07T13:06:07.033 回答
2
for a in soup.find_all('a', {"style": "display:inline; position:relative;"}, href=True):
    href = a['href'].strip()
    href = "http://example.com" + href
print(href)

'http://example.com/aems/file/filegetrevision.do?fileEntityId=8120070&cs=LU31NT9us5P9Pvkb1BrtdwaCrEraskiCJcY6E2ucP5s.xyz'

内置功能strip()在这里非常有用。:)

于 2013-01-07T13:10:36.863 回答