问题标签 [python-unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
623 浏览

javascript - UnicodeDecodeError: 'ascii' codec ...尝试为 JavaScript 编码结构时

我正在尝试从 python 结构中创建一个 unicode 字符串。我不想使用 python 的默认字符串转换方法,因为我希望这个 unicode 字符串具有特定的结构,以便我可以在 javascript 客户端中使用它。我在行得到 UnicodeDecodeError

我试过了

在文件的顶部。我也试过问题线

希望 str 类型会自动转换为 unicode。我究竟做错了什么?

这是代码片段:



0 投票
3 回答
3290 浏览

python - shlex.split 仍然不支持 unicode?

根据文档,在 Python 2.7.3 中,shlex 应该支持 UNICODE。但是,当运行下面的代码时,我得到:UnicodeEncodeError: 'ascii' codec can't encode characters in position 184-189: ordinal not in range(128)

难道我做错了什么?

确切的错误如下:

这是我的 mac 使用来自 macports 的 python 的输出。我在使用“本机”python 2.7.3 的 Ubuntu 机器上遇到了完全相同的错误。

0 投票
4 回答
17906 浏览

python - Python:为什么我会收到 UnicodeDecodeError?

我有以下代码使用 RE 搜索文件,如果找到任何匹配项,它会将文件移动到不同的目录中。

当我运行它时,我收到以下错误消息:

请有人解释为什么会出现此消息

0 投票
1 回答
552 浏览

python - 为什么我不能规范化这个随机的 unicode 字符串?

我需要评估 unicode 字符串上的 levenshtein 编辑距离,这意味着需要对包含相同内容的两个字符串进行归一化以避免编辑距离产生偏差。

以下是我为测试生成随机 unicode 字符串的方法:

这是失败的简单测试用例:

这是错误:

我检查以确保它uni确实是一个 unicode 对象:

有人可以启发我吗?

0 投票
3 回答
6506 浏览

python - zipfile提取时出现unicode错误

我有一个小脚本,可以提取一个 .zip 文件。这很好用,但仅适用于文件名中不包含带有“ä”、“ö”、“ü”(等等)等字母的文件的 .zip 文件。否则我会收到此错误:

这是我的脚本的提取部分:

我该如何解决这个问题?

0 投票
0 回答
136 浏览

python - 如果字符串在 Unicode 3.2.0 NFD 中,将其组合成 Unicode 6.1.0 NFC 是否安全(使用 Python 3.3 的 unicodedata.normalize 函数)?

考虑 Python 3.3 中的这段代码:

最后一条语句是否保证有效?我想更好的问题是:Unicode 3.2.0 中是否有任何 NFD 序列未被 Unicode 6.1.0 覆盖(这是 Python 3.3 中的默认值)?

我意识到,在字节级别可能不bla完全相同\u0307 . 我认为只要看起来与最终用户相同,而不是看起来损坏/混乱,就可以了。foofoobla foo

0 投票
2 回答
2570 浏览

python-unicode - 从字符串中制作繁体中文字符列表

我目前正在尝试估计每个字符在大量繁体汉字样本中的使用次数。我对字符而不是文字感兴趣。该文件还包括标点符号和西方字符。

我正在阅读繁体中文字符的示例文件。该文件包含大量繁体中文字符样本。这是一个小子集:

映鼓掌10分钟评语指不及《花样年华》该片在柏林首映,首场后获全场10分钟。影展功放的《李一代师》版本教小龙武叶问决战散打王</p>

另一个增加的戏分是开场时叶问(梁朝伟饰)</p>

我的策略是读取每一行,将每一行拆分为一个列表,然后检查每个字符以查看它是否已存在于列表或字符字典中。如果该字符尚不存在于我的列表或字典中,我会将其添加到该列表中,如果它确实存在于我的列表或字典中,我将增加该特定字符的计数器。我可能会使用两个列表,一个字符列表和一个包含计数的并行列表。这将是更多的处理,但也应该更容易编码。

我还没有接近这一点。

我能够成功读取示例文件。然后我可以为我的文件的每一行列出一个列表。我可以将这些单独的行打印到我的输出文件中,然后重新构建原始文件,繁体中文就完好无损。

但是,当我尝试列出特定行上的每个字符时,我遇到了麻烦。

我已经阅读了以下文章。我理解了许多评论,但不幸的是,无法理解足够多的评论来解决我的问题。 如何在不使用空格作为单词分隔符的语言(如中文)上执行 Python split()?

我的代码如下所示

通过各种测试,我确信以下行没有将字符串 LINES[0] 拆分为其组成汉字。

0 投票
0 回答
216 浏览

python - Python UnicodeEncodeError:编解码器无法编码字符

我从我的 python 脚本 (checkData.py) 创建了一个可执行文件

我正在尝试将包含语言环境字符的字符串数据从另一个 python 脚本传递给这个 exe 文件,如下所示:

当我从调用者脚本打印时dataPath,我可以看到语言环境字符。当我尝试打印传递给 exe 文件的字符串时出现错误。

这是我的错误信息:

当我运行以下命令时:

我得到“cp1254”

请问你能帮帮我吗?

0 投票
2 回答
1514 浏览

python - 尝试上传带有 unicode 内容的 XML 时出现 Python ftplib UnicodeEncodeError

我正在尝试使用 ftplib 将带有 unicode 内容的 XML 上传到 FTP 服务器,但是当我尝试使用 storbinary 方法上传时出现以下异常。XML 数据已正确编码为 un​​icode (utf-8),我已经确定了这一点,我不确定为什么 storbinary 在上传时尝试将其编码为“ascii”。有人可以帮忙吗?

0 投票
3 回答
1478 浏览

python - 打印列表时的括号

这不是特定于 sqlite 的,但我在学习 python 和 sqlite3 并列出查询结果时想知道。我有简单的代码:

因此,结果print cursor.fetchall()是:[(u'koko',), (u'lolo',)] 但是,当我尝试使用此代码重新创建那种打印时:

打印结果是:['koko', 'lolo']

我不明白的两件事:

  1. 为什么第一个列表在打印时有 'u' 表示 unicode 而第二个没有?
  2. 为什么第一个列表(u'koko',)在打印时有括号而第二个没有?

第一个列表可能是元组列表吗?