如果这个问题已经被问了十亿次,请原谅我——在 Python 中解析 HTML 的可用选项是什么,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?
问问题
330 次
1 回答
3
以我的经验,在许多 python xml/html 库中,Beautiful Soup非常擅长处理损坏的 HTML。
生的:
<i>This <span title="a">is<br> some <html>invalid</htl %> HTML.
<sarcasm>It's so great!</sarcasm>
用 BeautifulSoup 解析:
<i>This
<span title="a">is
<br /> some
<html>invalid HTML.
<sarcasm>It's so great!
</sarcasm>
</html>
</span>
</i>
于 2013-10-22T05:27:02.320 回答