2

我需要用windows-1251字符集解析一个 HTML 页面(它是俄语)。

问题是它是 Web 应用程序,我必须使用 Python 2.4,而没有机会在服务器上安装模块。我尝试做的唯一一件事是要求管理员安装lxml模块,但它在 2.4 上没有以正确的方式构建,并且尝试导入lxml.html失败。

现在我试图在BeautifulSouphtml5lib模块之间进行选择,但我没有找到任何使用 html5lib 的简单示例(我只需要从某个div元素中提取一些文本,并剥离其中的所有其他标签)。反过来,BeautifulSoup 返回错误“开始标记中的垃圾字符:u”\u041f\u0440\u043e\u0434\u0430\u0436\u0430>'并且任何将源页面从CP1251解码为un ​​icode或任何其他字符集的尝试都没有”做不到。

我究竟做错了什么?或者我应该使用什么解析器?

4

1 回答 1

0

这个问题对如何转换为 UTF-8 有很好的回答:

Python:如何从 Windows 1251 转换为 Unicode?

我喜欢 BeautifulSoup 库,但我不熟悉奇怪的字符集。如果我正在写这篇文章,我可能只是尝试清理输入以使我进入大多数库都能很好地运行的 unicode 领域。

于 2012-03-12T19:58:51.427 回答