我正在尝试使用 BeautifulSoup Python 库解析 HTML 文档,但结构被扭曲了<br>
标签扭曲了。让我举个例子。
输入 HTML:
<div>
some text <br>
<span> some more text </span> <br>
<span> and more text </span>
</div>
BeautifulSoup 解释的 HTML:
<div>
some text
<br>
<span> some more text </span>
<br>
<span> and more text </span>
</br>
</br>
</div>
在源代码中,跨度可以被认为是兄弟姐妹。解析后(使用默认解析器),跨度突然不再是兄弟,因为 br 标签成为结构的一部分。
我能想到的解决方案是<br>
在将 html 倒入 Beautifulsoup 之前完全去除标签,但这似乎不太优雅,因为它需要我更改输入。有什么更好的方法来解决这个问题?