7

在使用 Beautifulsoup 处理 html 时, < 和 > 被转换为&lt;and &gt;,由于标记锚都被转换,整个汤失去了它的结构,有什么建议吗?

4

2 回答 2

4

设置formatter=None可能会有所帮助(http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters),但这可能表明您的 HTML 无效。

如果这不起作用,您能否提供一些重现问题的示例代码和 HTML?

于 2013-02-03T10:38:08.640 回答
0

这可能是由于无效字符(由于字符集编码/解码),因此 BeautifulSoup 在解析输入时存在问题。我通过将我的字符串直接传递给 BeautifulSoup 来解决它,而不进行任何编码/解码。就我而言,我试图自己将 UTF-16 转换为 UTF-8。

于 2019-04-06T00:44:04.740 回答