我正在使用 beautifulsoup 从 html 字符串中提取图像和链接。这一切都很好,但是对于某些在链接内容中有标签的链接,它会引发错误。
示例链接:
<a href="http://www.example.com"><strong>Link Text</strong></a>
蟒蛇代码:
soup = BeautifulSoup(contents)
links = soup.findAll('a')
for link in links:
print link.contents # generates error
print str(link.contents) # outputs [Link Text]
错误信息:
TypeError: sequence item 0: expected string, Tag found
我真的不想遍历链接文本中的任何子标签,我只想返回原始内容,这对 BS 可行吗?