问题标签 [python-unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6139 浏览

python - Python 转义序列 \N{name} 未按定义工作

我正在尝试打印给定名称的 unicode 字符,如下所示:

然而,我得到的输出并不是很令人鼓舞。

转义序列按原样打印。

然而,我可以看到另一个提问者已经能够成功地做到这一点。

怎么了?

0 投票
1 回答
27496 浏览

python - Python 2.7 中的 Open() 和 codecs.open() 表现出奇特的不同

我有一个文本文件,其中包含第一行 unicode 字符和 ASCII 中的所有其他行。我尝试将第一行作为一个变量读取,将所有其他行作为另一个变量读取。但是,当我使用以下代码时:

我得到以下输出:

如果我不使用 readlines(),则会读取整个文件,而不仅仅是 codecs.open() 和 open() 的前 7 行。

为什么会发生这样的事情?为什么 codecs.open() 以二进制模式读取文件,尽管添加了 'r' 参数?

更新:这是原始文件:http ://www1.datafilehost.com/d/0792d687

0 投票
2 回答
2396 浏览

python - 带有前缀的 Python 字典键/值 - 前缀是什么?

我最近看到一个 Python dict 看起来像这样:

这让我有点困惑,u键/值对之前的内容是什么?它是某种前缀吗?这有什么不同:

我尝试过使用 test1 和 test2;他们似乎一点也不不同。有人能解释一下前缀的用途吗?

0 投票
4 回答
2994 浏览

python - 如何处理电子邮件包中的 Python 3.x UnicodeDecodeError?

我尝试从文件中读取电子邮件,如下所示:

我得到这个错误:

该文件包含一个多部分电子邮件,其中该部分以 UTF-8 编码。文件的内容或编码可能已损坏,但无论如何我都必须处理它。

我如何读取文件,即使它有 Unicode 错误?我找不到策略对象compat32,似乎没有办法处理异常并让 Python 在异常发生的地方继续。

我能做些什么?

0 投票
1 回答
371 浏览

python - Unicode 在 html.parser 中消失

我正在从一些带有 Unicode 字符的网页中提取 HTML,如下所示:

如您所见,我正在正确解码。现在html是一个 unicode 字符串。打印 html 时,我可以看到 Unicode 字符。

html.parser用来解析 HTML 并将其子类化:

使用类解析 HTML 时handle_data,似乎 Unicode 字符被删除/突然消失。文档没有提到任何关于编码的内容。为什么 HTML Parser 会删除非 ascii 字符,我该如何解决这个问题?

0 投票
2 回答
356 浏览

python - Flaskr UnicodeDecodeError

我是 Python 的初学者。我想学习一个web框架,我选择了Flask。我已经完成了快速入门。之后,我继续学习教程。但是,我被困住了。

我在github上克隆了这个项目后 https://github.com/zhangjingqiang/flaskr

我运行python flaskr.py并打开我的网络浏览器以检查它是否正常工作。我收到此错误消息:

我不知道如何解决它。有人可以帮助我吗?谢谢。

0 投票
1 回答
108 浏览

python - Scraperwiki 字符编码异常

这是一个用 Python 编写的 ScraperWiki 刮板:

它产生以下输出:

我的问题:是什么导致第三个输出行上的初始字符呈现为“A”而不是“E”,我怎样才能阻止这种情况发生?

0 投票
2 回答
3070 浏览

python - python re (regex) 是否可以替代 \u unicode 转义序列?

Python 将 \uxxxx 视为字符串文字中的 unicode 字符转义(例如 u"\u2014" 被解释为 Unicode 字符 U+2014)。但我刚刚发现(Python 2.7)标准正则表达式模块不会将 \uxxxx 视为 unicode 字符。例子:

显然,如果您能够将您的正则表达式模式指定为字符串文字,那么您可以获得与正则表达式引擎本身理解 \uxxxx 转义相同的效果:

但是如果你需要动态地构建你的模式呢?

0 投票
1 回答
566 浏览

python - 将字符串 unicode 转换为 latin

我从一些 http 请求中得到以下结果:

我做了一些研究,我能够找到这行代码,它可以使用以下代码行转换 utf-16:

我的问题是,如何将结果的空洞句从 utf-16 转换为 latin-1 ?更具体,如何将其转换或替换为:“Tratamento da rejeição no cancelamento da desagragação”

0 投票
1 回答
515 浏览

regex - 正则表达式 - 在 Python 中指定高 Unicode 代码点

在 Python 3.3 中,我在正则表达式中使用 Unicode 代码点范围没有问题:

它干净简单。但是,如果我包含五个十六进制数字的代码点,也就是说,任何高于 的代码点\uffff,例如\u1047f,作为以四个十六进制数字开头的范围的一部分,我会收到一个错误:

如果我开始一个新的五位数范围没有错误,但我也没有得到预期的行为:

(这些符号分别是代码点\u10000\u10308\u10192,应该在最后一次re.sub操作中被替换。)


按照接受的答案的说明:

完美的。丑到极点,但完美。