给定一个 HTML 链接,例如
<a href="urltxt" class="someclass" close="true">texttxt</a>
如何隔离 url 和文本?
更新
我正在使用 Beautiful Soup,但无法弄清楚如何做到这一点。
我做了
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
links = soup.findAll('a')
for link in links:
print "link content:", link.content," and attr:",link.attrs
我明白了
*link content: None and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root /support.asp')]* ...
...
为什么我缺少内容?
编辑:按照建议详细说明“卡住”:)