问题标签 [python-unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
947 浏览

python - python中的Unicode

现在,我将 elixir 与我的 mysql 数据库和 redispy 与 redis 一起使用,并且我在所有地方都选择了 UTF-8。我想用中文写一些数据,{'Info':‘8折’,'Name':'家乐福'}但我得到的是这样的:

在我将此字典存储到redis并通过redispy将其取出后,它变为:

我知道如果我u'之前添加8\u6298并打印它会告诉我"8折",但是这个问题有没有功能或其他解决方案?

0 投票
34 回答
1982488 浏览

python - UnicodeEncodeError:“ascii”编解码器无法在位置 20 编码字符 u'\xa0':序数不在范围内(128)

我在处理从不同网页(在不同站点上)获取的文本中的 unicode 字符时遇到问题。我正在使用 BeautifulSoup。

问题是错误并不总是可重现的。它有时适用于某些页面,有时它会通过抛出UnicodeEncodeError. 我已经尝试了几乎所有我能想到的东西,但我还没有找到任何可以始终如一地工作而不会引发某种与 Unicode 相关的错误的东西。

导致问题的代码部分之一如下所示:

这是运行上面的代码片段时在某些字符串上产生的堆栈跟踪:

我怀疑这是因为某些页面(或更具体地说,来自某些站点的页面)可能已编码,而其他页面可能未编码。所有网站都位于英国,并提供用于英国消费的数据 - 因此不存在与内部化或处理以英语以外的任何文本编写的文本相关的问题。

有没有人对如何解决这个问题有任何想法,以便我可以始终如一地解决这个问题?

0 投票
2 回答
28622 浏览

python - python 2.7小写

当我.lower()在 Python 2.7 中使用时,字符串不会转换为字母的小写ŠČŽ。我从字典中读取数据。

我尝试使用str(tt["code"]).lower(), tt["code"].lower()

有什么建议么 ?

0 投票
0 回答
73 浏览

django-testing - 如何从 Django 测试中获得非转义的 utf-8 输出?

将 Django 1.3 与 python 2.7 一起使用,测试用例如下:

给我输出:

我倒要看看:

终端支持 utf-8,并且 utf-8 在其他任何地方都以未转义的形式打印,仅对测试的输出进行转义。

  • 我试过做 self.fail(msg.encode('utf-8')) 但这会导致 UnicodeDecodeError。
  • 我试过设置 DEFAULT_CHARSET 和 TESTING_CHARSET,但它们没有效果。

我需要更改什么才能获得此输出?

0 投票
3 回答
55459 浏览

python - Python显示特殊字符

我知道关于这个问题有很多线程,但我还没有找到一个可以解决我的问题的线程。

我正在尝试打印一个字符串,但打印时它不显示特殊字符(例如æ、ø、å、ö 和 ü)。当我使用它打印字符串时repr(),我得到:

u'Von D\xc3\xbc'u'\xc3\x96berg'

有谁知道我如何将其转换为Von Düand Öberg?对我来说重要的是这些字符不会被忽略,例如myStr.encode("ascii", "ignore").

编辑

这是我使用的代码。我使用 BeautifulSoup 来抓取网站。<td>表格 ( ) 中单元格 ( ) 的内容<table>被放入变量name。这是包含我无法打印的特殊字符的变量。

0 投票
3 回答
149620 浏览

python - Python字符串到unicode

可能重复:
如何将 ASCII 字符串视为 unicode 并在 python 中对其中的转义字符进行转义?
如何将 unicode 转义序列转换为 python 字符串中的 unicode 字符

我有一个包含 unicode 字符的字符串,例如\u2026等。不知何故,我没有收到它unicode,而是收到了str. 如何将其转换回 unicode?

所以显然unicode(a)不是答案。那是什么?

0 投票
9 回答
352343 浏览

python - 如何在 Python 中打印 Unicode 字符?

我想制作一本字典,其中英语单词指向俄语和法语的翻译。

如何在 Python 中打印出 unicode 字符?另外,如何将 unicode 字符存储在变量中?

0 投票
6 回答
412206 浏览

python - SyntaxError:函数返回“£”时文件中的非 ASCII 字符“\xa3”

说我有一个功能:

我想打印一些前面有井号的东西,当我尝试运行这个程序时它会打印一个错误,显示这个错误消息:

谁能告诉我如何在我的返回函数中包含一个井号?我基本上是在课堂上使用它,它在'__str__'包含井号的部分内。

0 投票
1 回答
1331 浏览

python - UnicodeDecodeError,python 中雪球词干算法的 ascii 处理

我在将一般文件读入我制作的程序时遇到了一些麻烦。我目前遇到的问题是 pdf 基于某种变异的 utf-8,包括一个 BOM,它给我的整个操作带来了麻烦。在我的应用程序中,我使用需要 ascii 输入的 Snowball 词干算法。有许多主题涉及解决 utf-8 的错误,但是没有一个涉及将它们发送到 Snowball 算法中,或者考虑到 ascii 是我想要的最终结果这一事实。目前我使用的文件是使用标准 ANSI 编码的记事本文件。我得到的具体错误信息是这样的:

我的理解是,在 python 中,包括 ignore 参数只会传递遇到的任何非 ascii 字符,这样我会绕过任何 BOM 或特殊字符,但显然情况并非如此。调用的实际代码在这里:

通过将一般的非贪婪的非字符正则表达式删除包含到字符串的前面,我还希望可以删除麻烦的字符,但事实并非如此。除了 ascii 之外,我还尝试了许多其他编码,并且严格的 base64 编码有效,但对于我的应用程序来说非常不理想。关于如何以自动化方式解决此问题的任何想法?

Element 的初始解码失败,但在实际传递给编码器时返回 unicode 错误。

显示的代码生成所见的课程元素。

这种类型转换的hackaround确实有效,但是转换回ascii有点不稳定。返回此错误:

0 投票
3 回答
3990 浏览

python - 获取 url 时出现 UnicodeEncodeError

我在尝试使用 lxml 获取 HTML 文档中的所有文本节点时遇到了这个问题,但我得到了 UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 8995: ordinal not in range(128)。但是,当我尝试找出此页面的编码类型 ( encoding = chardet.detect(response)['encoding']) 时,它说它是utf-8. 一个页面有 utf-8 和 ascii 似乎很奇怪。其实这个:

解决问题。

这是我的代码:

输出:

我能做些什么来解决这个问题?请记住,我想对其他几个页面执行此操作,因此我不想单独编码。

更新:

也许这里还有其他事情发生。当我在终端上运行这个脚本时,我得到了正确的输出,但是当在 SublimeText 中运行它时,我得到 UnicodeEncodeError...¿?

更新2:

当我使用此输出创建文件时也会发生这种情况。.encode('ascii', 'replace')正在工作,但我想要一个更通用的解决方案。

问候