我需要用windows-1251字符集解析一个 HTML 页面(它是俄语)。
问题是它是 Web 应用程序,我必须使用 Python 2.4,而没有机会在服务器上安装模块。我尝试做的唯一一件事是要求管理员安装lxml模块,但它在 2.4 上没有以正确的方式构建,并且尝试导入lxml.html失败。
现在我试图在BeautifulSoup和html5lib模块之间进行选择,但我没有找到任何使用 html5lib 的简单示例(我只需要从某个div元素中提取一些文本,并剥离其中的所有其他标签)。反过来,BeautifulSoup 返回错误“开始标记中的垃圾字符:u”\u041f\u0440\u043e\u0434\u0430\u0436\u0430>'并且任何将源页面从CP1251解码为un icode或任何其他字符集的尝试都没有”做不到。
我究竟做错了什么?或者我应该使用什么解析器?