我想解析一个包含 html 锚标记的原始文档,但不幸的是它包含无效的标记,例如:
<a href="A 4"drive bay">some text here</a>
我知道这个href
值可能不是一个实际的链接,但我们就这样吧。现在我需要的是检索 href 值'A 4"drive bay'
和链接文本'some text here'
。
我正在使用 python,我已经尝试了 python 库“ BeautifulSoup ”,它在检索所有锚标记方面效果很好。但问题是它在遇到提到的无效锚标记时标记错误,其中href值包含' “ '。这种情况存在于我正在解析的原始数据中,并且修改此类数据不是一个选项..
我使用 BeautifulSoup 的 Python 代码的一部分是:
sub_s = BeautifulSoup(line)
for l in sub_s.find_all('a'):
l.replace_with(l.string)
print str(sub_s),
该代码只是将锚标记替换为纯文本
如果有人可以帮助我解决这个问题,我将非常感激......正则表达式也可以...... ^^