问题标签 [python-unicode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python 2.7 中的 Open() 和 codecs.open() 表现出奇特的不同
我有一个文本文件,其中包含第一行 unicode 字符和 ASCII 中的所有其他行。我尝试将第一行作为一个变量读取,将所有其他行作为另一个变量读取。但是,当我使用以下代码时:
我得到以下输出:
如果我不使用 readlines(),则会读取整个文件,而不仅仅是 codecs.open() 和 open() 的前 7 行。
为什么会发生这样的事情?为什么 codecs.open() 以二进制模式读取文件,尽管添加了 'r' 参数?
更新:这是原始文件:http ://www1.datafilehost.com/d/0792d687
python - 带有前缀的 Python 字典键/值 - 前缀是什么?
我最近看到一个 Python dict 看起来像这样:
这让我有点困惑,u
键/值对之前的内容是什么?它是某种前缀吗?这有什么不同:
我尝试过使用 test1 和 test2;他们似乎一点也不不同。有人能解释一下前缀的用途吗?
python - 如何处理电子邮件包中的 Python 3.x UnicodeDecodeError?
我尝试从文件中读取电子邮件,如下所示:
我得到这个错误:
该文件包含一个多部分电子邮件,其中该部分以 UTF-8 编码。文件的内容或编码可能已损坏,但无论如何我都必须处理它。
我如何读取文件,即使它有 Unicode 错误?我找不到策略对象compat32
,似乎没有办法处理异常并让 Python 在异常发生的地方继续。
我能做些什么?
python - Unicode 在 html.parser 中消失
我正在从一些带有 Unicode 字符的网页中提取 HTML,如下所示:
如您所见,我正在正确解码。现在html
是一个 unicode 字符串。打印 html 时,我可以看到 Unicode 字符。
我html.parser
用来解析 HTML 并将其子类化:
使用类解析 HTML 时handle_data
,似乎 Unicode 字符被删除/突然消失。文档没有提到任何关于编码的内容。为什么 HTML Parser 会删除非 ascii 字符,我该如何解决这个问题?
python - Flaskr UnicodeDecodeError
我是 Python 的初学者。我想学习一个web框架,我选择了Flask。我已经完成了快速入门。之后,我继续学习教程。但是,我被困住了。
我在github上克隆了这个项目后 https://github.com/zhangjingqiang/flaskr
我运行python flaskr.py
并打开我的网络浏览器以检查它是否正常工作。我收到此错误消息:
我不知道如何解决它。有人可以帮助我吗?谢谢。
python - Scraperwiki 字符编码异常
这是一个用 Python 编写的 ScraperWiki 刮板:
它产生以下输出:
我的问题:是什么导致第三个输出行上的初始字符呈现为“A”而不是“E”,我怎样才能阻止这种情况发生?
python - python re (regex) 是否可以替代 \u unicode 转义序列?
Python 将 \uxxxx 视为字符串文字中的 unicode 字符转义(例如 u"\u2014" 被解释为 Unicode 字符 U+2014)。但我刚刚发现(Python 2.7)标准正则表达式模块不会将 \uxxxx 视为 unicode 字符。例子:
显然,如果您能够将您的正则表达式模式指定为字符串文字,那么您可以获得与正则表达式引擎本身理解 \uxxxx 转义相同的效果:
但是如果你需要动态地构建你的模式呢?
python - 将字符串 unicode 转换为 latin
我从一些 http 请求中得到以下结果:
我做了一些研究,我能够找到这行代码,它可以使用以下代码行转换 utf-16:
我的问题是,如何将结果的空洞句从 utf-16 转换为 latin-1 ?更具体,如何将其转换或替换为:“Tratamento da rejeição no cancelamento da desagragação”
regex - 正则表达式 - 在 Python 中指定高 Unicode 代码点
在 Python 3.3 中,我在正则表达式中使用 Unicode 代码点范围没有问题:
它干净简单。但是,如果我包含五个十六进制数字的代码点,也就是说,任何高于 的代码点\uffff
,例如\u1047f
,作为以四个十六进制数字开头的范围的一部分,我会收到一个错误:
如果我开始一个新的五位数范围没有错误,但我也没有得到预期的行为:
(这些符号分别是代码点\u10000
、\u10308
和\u10192
,应该在最后一次re.sub
操作中被替换。)
按照接受的答案的说明:
完美的。丑到极点,但完美。