python - 选择什么 HTML 解析器以及为什么 BeautifulSoup 不起作用？

Question

我需要用windows-1251字符集解析一个 HTML 页面（它是俄语）。

问题是它是 Web 应用程序，我必须使用 Python 2.4，而没有机会在服务器上安装模块。我尝试做的唯一一件事是要求管理员安装lxml模块，但它在 2.4 上没有以正确的方式构建，并且尝试导入lxml.html失败。

现在我试图在BeautifulSoup和html5lib模块之间进行选择，但我没有找到任何使用 html5lib 的简单示例（我只需要从某个div元素中提取一些文本，并剥离其中的所有其他标签）。反过来，BeautifulSoup 返回错误“开始标记中的垃圾字符：u”\u041f\u0440\u043e\u0434\u0430\u0436\u0430>'并且任何将源页面从CP1251解码为un icode或任何其他字符集的尝试都没有”做不到。

我究竟做错了什么？或者我应该使用什么解析器？

score 0 · Accepted Answer

这个问题对如何转换为 UTF-8 有很好的回答：

Python：如何从 Windows 1251 转换为 Unicode？

我喜欢 BeautifulSoup 库，但我不熟悉奇怪的字符集。如果我正在写这篇文章，我可能只是尝试清理输入以使我进入大多数库都能很好地运行的 unicode 领域。

python - 选择什么 HTML 解析器以及为什么 BeautifulSoup 不起作用？

1 回答 1

Related

Reference