问题标签 [python-unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
67437 浏览

python - 在python2.7中删除字符串中的unicode \u2026之类的字符

我在python2.7中有一个这样的字符串,

我如何将其转换为这个,

0 投票
1 回答
1668 浏览

google-app-engine - Google App Engine 上的 PIL 可以使用哪些系统字体?

App Engine 上的 PIL 可以使用哪些字体?

我知道我可以将字体作为应用程序的一部分上传,但我基本上想要的是一个系统提供的无衬线字体,它可以处理 unicode 字符,这是一个好看的 Helvetica(或替代)。谷歌服务器可能已经安装了一些字体,这就是我想要了解的内容。

我想找到一种可以使用 unicode 的字体,以便使用 PIL 正确呈现日语和其他字符。

我有一个使用字体系列正确呈现 unicode 字符的网页:'Helvetica Neue', Helvetica, Arial, sans-serif;

当我使用 PIL 呈现相同的 unicode 字符时,它们无法正确呈现。我作为应用程序的一部分上传的字体在字体中没有必要的 Unicode 字符。

以下是我现在使用的相关 python 代码行。

0 投票
2 回答
689 浏览

python - 在 Python 2.7 中访问带有空格的 unicode 键

我正在做一个项目,我试图在其中获取 Excel 文件(通过 读取xlrd)和地理编码地址。为此,我使用了一个目录列表,每个目录条目都是一个单独的站点。

类似的东西addressList[0]会导致以下结果:

(我刚刚在电子表格中意识到,“隶属关系”拼写错误。嗯。)

现在,通过环顾四周,我知道Python 中的键中可以有空格,这应该不是问题。但是输入addressList[0]['Site Phone']会导致 KeyError。事实上,尝试获取“Hours”键的值会导致类似的 KeyError。

基于关于Unicode keys 的问题,我尝试了以下方法:

这导致了一个包含以下条目的字典:

这是合理的,除了我现在必须通过 访问该值STRING_DATA["text:u'Site Name'"],这似乎很痛苦。

有没有更快/更简单的方法来使用这些键?

0 投票
1 回答
100 浏览

python - Django:无法弄清楚 Django 中的编码

我让这个应用程序在 python 2.7 中运行良好!

它以“من”为例,并将其更改为“mn”。

现在我已将其更改为 Django 函数,我的行为很奇怪!

Django 功能:

我只是在测试会是什么结果!现在这是 html 页面中显示的内容:

如果我把这u''封信放在前面,就会出现这样的结果:

有人可以请告诉我发生了什么吗?为什么这些字母没有显示在 html 页面上?

0 投票
3 回答
95462 浏览

python - 在 python 中正确读取 Windows-1252(cp1252) 文件中的文本

好吧,正如标题所示,我遇到的问题是从 python 中的 windows-1252 编码文件中正确读取输入并将所述输入插入到 SQLAlchemy-MySql 表中。

当前系统设置:
Windows 7 VM,带有输出文件的“Roger Access Control System”;
Ubuntu 12.04 LTS VM 与 Windows 系统的共享文件夹,因此我可以使用“Python 2.7.3”访问该文件。

现在到实际问题,对于输入文件,我有一个“VM 共享文件夹”,其中包含通过 Roger 访问控制系统(roger.pl 了解更多详细信息)在 Windows 7 系统上生成的文件,该文件称为“ PREvents.csv" 暗示它的内容,一个 ";" 单独的数据列表。

数据的示例格式:

第 4 个字段包含卡所有者姓名,第 5 个字段包含所有者姓氏,第 6 个字段包含所有者分配的组。

问题在于上述三个字段中的任何一个都可以包含特定于拉脱维亚语言的字符,在示例文件中,单词“Jānis”包含字母“ā”,在 unicode 中是 257。

正如我习惯的那样,我这样打开文件:

到目前为止,一切正常 - 它打开了文件,所以我继续迭代文件的每一行(这是一个连续运行的脚本,所以请原谅循环):

这就是问题开始的地方,如果print repr(firstname)它打印出来u'J\xe2nis',据我所知,这是不正确的 - `\xe2\ 不代表拉脱维亚字符“ā”。
根据事件类型进一步向下循环,我将变量分配给 SQLAlchemy 对象并插入/更新:

在我寻找答案的过程中,我发现了如何定义要使用的默认编码:

这对我没有任何帮助。

基本上,这一切都会导致我无法插入正确的所有者名字/姓氏以及所有者分配的组名,如果它们包含任何拉脱维亚特定字符,例如:

我还想补充一点,我无法更改“PREvents.csv”文件编码,并且“RACS”系统不支持插入 UTF-8 或 Unicode 文件 - 如果您尝试任何一种方式,系统都会为拉脱维亚特有的字符。

如果需要任何其他信息,请现在告诉我,我很乐意提供:)

任何帮助将不胜感激。

0 投票
1 回答
349 浏览

sqlite - SQLite 中的 UnicodeDecodeError

我正在尝试获取 2 元素元组的列表并将它们添加到SQLite表中。

元组的第一个元素是一个字符串(编码为unicode utf-8),第二个元素是murmurhash3 hashutf-8字符串的 a。

这是违规行:for result in

错误是UnicodeDecodeError

是什么导致了这个错误?

0 投票
1 回答
756 浏览

python - python中对非英文文件名的文件操作

我们中的许多人可能会遇到这个问题,但我在 unicode 处理方面很差。这是问题所在:这是一个代码片段,我正在尝试执行 .exe 文件并检查文件路径是否存在但没有运气:

我总是得到“找不到路径”的结果。我尝试使用 path.decode('utf-8'):
但脚本将文件路径读取为:

而且由于这个文件路径不存在,所以它转到 else 分支。

请给我一个提示来处理这个 unicode 问题,以及如果我能够向用户展示在 cmd 或日志文件中显示文件路径是否更好。

如果这似乎是重复的帖子,我深表歉意。

0 投票
2 回答
1283 浏览

python - 访问 csv 文件时出现 UnicodeDecodeError

输入文件:chars.csv:

当我尝试解析此文件时,即使在指定 utf-8 编码后也会出现此错误。

如何纠正这个错误?

版本:Python 3.2.3

0 投票
1 回答
721 浏览

regex - 使用python解析日志文件并使用sqlite将其有效值存储在数据库中

嗨,我是 python 的新手。我正在创建一个小程序,它解析特定网站的加载日志文件并将有效数据存储在数据库的特定字段中。但是有些字段具有奇怪的字符,例如“推广频道”。 (非ASCII字符'xe6')。

我也尝试应用这个问题的解决方案。 将unicode插入sqlite? 但是此编解码器无法解码并提供 UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 84: chara cter maps to

0 投票
2 回答
1424 浏览

unicode - 如何在 Python 中处理 UTF-8 和 ISO-8859-1 字符的混合?

我有一组似乎包含以 UTF-8 和 ISO-8859-1 编码的字符的文档。我希望它们只是 UTF-8 编码。

当我使用文档将其解码为 UTF-8时,doc.decode('utf-8')我最终会得到一些 unicode 转义序列,例如\u2022,但我也有很多\xa0我认为是 ISO-8859-1 的字符。我想将它们转换为它们的 unicode 等价物,以便一切都幸福地生活在一起。这可能吗?我正在使用 Python 2.74。

我做过的一件事是:

但还有其他奇怪的角色,比如\xb7——我想一口气把它们全部搞定。