问题标签 [unicode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
language-agnostic - 项目国际化
您是如何在您从事的实际项目中实施国际化 (i18n) 的?
在阅读了 Joel 的著名文章后,我对制作跨文化软件产生了兴趣,每个软件开发人员绝对、肯定必须了解 Unicode 和字符集的绝对最低要求(没有借口!)。但是,除了确保尽可能使用 Unicode 字符串之外,我还没有能够在实际项目中利用这一点。但是,将所有字符串设为 Unicode 并确保您了解所使用的所有内容的编码方式只是 i18n 的冰山一角。
迄今为止,我所做的一切都是为一组受控的美国英语人士使用,或者 i18n 只是在推动项目上线之前我们没有时间进行工作。所以我正在寻找人们关于使软件在现实世界项目中更加本地化的任何技巧或战争故事。
python - Python、Unicode 和 Windows 控制台
当我尝试在 Windows 控制台中打印 Unicode 字符串时,出现错误。
UnicodeEncodeError: 'charmap' codec can't encode character ....
我认为这是因为 Windows 控制台不接受纯 Unicode 字符。解决这个问题的最佳方法是什么?有什么办法可以让 Python?
在这种情况下自动打印 a 而不是失败?
编辑: 我使用的是 Python 2.5。
注意: @LasseV.Karlsen 带有复选标记的答案有点过时(从 2008 年开始)。请谨慎使用下面的解决方案/答案/建议!!
从今天(2016 年 1 月 6 日)起,@JFSebastian 的回答更加相关。
unicode - 只是我,还是最近字符渲染不正确?
我不确定它是否是我的系统,虽然我没有做任何不寻常的事情,但我已经开始注意到网页、文本文件中出现错误渲染的字符,如下所示:
http://www.kbssource.com/strange-characters.gif
我有一种预感,这与最近对所有内容都使用 unicode 的趋势有关,我认为这是一件好事,再加上不支持所有可能字符的字体。
那么,有谁知道是什么导致了这些光点(我是对的吗?),以及如何阻止这些光点出现在我自己的内容中?
windows - 如何在 OpenGL 中显示 unicode 文本?
有没有一种在 Windows 下的 opengl 中显示 unicode 文本的好方法?例如,当您必须处理不同的语言时。最常见的方法如
只是不会这样做,因为您无法为所有 unicode 字符创建足够的列表。
c++ - C ++中的字符串到下/上
人们发现在 C++ 中将字符串转换为小写/大写的最佳方法是什么?
由于 C++ 不是纯英语的编程语言,这个问题变得复杂了。有没有好的多语言方法?
internet-explorer - 如何在 IE7 中为 IMG ALT 的工具提示正确显示 Unicode 字符?
我在 ALT 属性中有一些日语,但工具提示向我显示了工具提示中丑陋的块字符。页面上的其余内容正确呈现。到目前为止,它似乎仅限于工具提示。
python - 正则表达式和 unicode
我有一个脚本可以解析电视剧集的文件名(例如 show.name.s01e02.avi),获取剧集名称(来自 www.thetvdb.com API)并自动将它们重命名为更好的名称(显示名称 - [01x02 ].avi)
该脚本运行良好,直到您尝试在具有 Unicode 显示名称的文件上使用它(这是我从未真正想过的,因为我拥有的所有文件都是英文的,所以几乎所有文件都属于[a-zA-Z0-9'\-]
)
如何允许正则表达式匹配重音字符等?目前正则表达式的配置部分看起来像..
python - Python / Django 中的 Unicode 与 UTF-8 混淆?
我在Django 教程中偶然发现了这段话:
Django 模型有一个默认的str () 方法,该方法调用unicode () 并将结果转换为 UTF-8 字节串。这意味着 unicode(p) 将返回一个 Unicode 字符串,而 str(p) 将返回一个普通字符串,字符编码为 UTF-8。
现在,我很困惑,因为 afaik Unicode 不是任何特定的表示形式,那么 Python 中的“Unicode 字符串”是什么?这是否意味着UCS-2?谷歌搜索出现了这个“Python Unicode 教程”,它大胆地指出
Unicode 是一种两字节编码,涵盖了世界上所有常见的书写系统。
这是完全错误的,或者是吗?我多次被字符集和编码问题弄糊涂了,但是在这里我很确定我正在阅读的文档很困惑。当它给我一个“Unicode 字符串”时,有人知道 Python 中发生了什么吗?
php - 在支持 Unicode 的浏览器时代仍然需要 HTML 中的命名实体吗?
在过去的几年里,我做了很多 PHP 编程,而让我烦恼的一件事是对 Unicode 和多字节字符串的弱支持(可以肯定的是,本机没有)。例如,“htmlentities”似乎是 PHP 世界中一个常用的函数,当您努力保持每个字符串可本地化时,我发现它绝对令人讨厌,只在数据库中存储 UTF-8,只提供 UTF -8 网页等。突然,在你的数据库和浏览器之间的某个地方,有一个天真的功能,它假装每个字节都是一个字符,把一切都搞砸了。
我只是想转储这种功能,它们似乎完全是多余的。现在还需要写'ä'吗 代替'?至少我的 Firefox 似乎非常乐意显示即使是最奇怪的亚洲字形,只要它们以正确的编码提供。
更新:更准确地说:除了显示 HTML 标记之外,命名实体是否是必需的(如“<”中的“<”)
更新 2:
@Konrad:您是说不需要命名实体吗?
@Ross:但是在输入用户输入时对其进行清理,以使我的输出逻辑免受此类问题的影响不是更好吗?(当然,假设对输入进行可靠的清理是可能的——但是,如果不是,它可以在输出上吗?)
unicode - 如何在我的 Antlr 语法中添加 unicode 字符?
我正在尝试使用以下内容构建语法:
数字:整数 | 浮动 | 无限 | PI ... INFINITY: '∞' PI: 'π'
但是 Antlr 拒绝加载语法。