问题标签 [unicode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Python 3.0 中,标准库中的所有内容都会将字符串视为 unicode 吗?
既然 Python(从 3.0 开始)是基于 unicode 的,我对标准库的行为方式有点困惑。CGI 和 urllib 等模块会使用 unicode 字符串,还是会使用新的“字节”类型并仅提供编码数据?
unicode - 不同语言的最小 Unicode 编码?
不同语言中不同 unicode 编码的典型平均每字符字节数是多少?
例如,如果我想要最少的字节数来编码一些英文文本,那么平均而言,UTF-8 将是每个字符 1 个字节,而 UTF-16 将是 2,所以我会选择 UTF-8。
如果我想要一些韩文文本,那么 UTF-16 可能平均每个字符大约 2 个,但 UTF-8 可能平均大约 3 个(我不知道,我只是在这里编一些说明性数字)。
哪种编码对不同的语言和字符集产生最小的存储要求?
java - Java中如何判断一个字符是否为字母?
你如何检查一个字符的字符串是否是一个字母 - 包括任何带有重音符号的字母?
我最近必须解决这个问题,所以在最近的 VB6 问题提醒我之后,我会自己回答。
c# - 如何以正确的字体呈现 unicode 字符?(C#/WinForms)
我的应用程序正确处理不同类型的字符集,但仅限于内部 - 在标准 WinForms 标签和文本框中显示文本时,中文字符似乎存在问题。
问题似乎是使用的字体(Tahoma),因为当我复制和粘贴文本或在调试器中查看它时,它会正确显示。此外,当我将 MS Mincho 设置为要使用的字体时,屏幕上的字符看起来还不错。
当然,我不想在整个应用程序中使用 MS Mincho。我是否必须根据显示的字符切换字体,还是我错过了更好的方法?
asp.net - 有没有办法以编程方式确定字体文件是否具有特定的 Unicode 字形?
我正在开发一个项目,该项目可以生成包含相当复杂的数学和科学公式的 PDF。文本以 Times New Roman 呈现,它具有很好的 Unicode 覆盖率,但并不完整。我们有一个系统可以为在 TNR 中没有字形的代码点(如大多数“陌生”数学符号)交换更 Unicode 完整的字体,但我似乎找不到查询的方法*.ttf 文件以查看是否存在给定的字形。到目前为止,我只是硬编码了一个存在哪些代码点的查找表,但我更喜欢自动解决方案。
我在 ASP.net 下的 Web 系统中使用 VB.Net,但任何编程语言/环境中的解决方案都将不胜感激。
编辑:win32 解决方案看起来很棒,但我要解决的具体情况是在 ASP.Net Web 系统中。有没有办法在我的网站中不包含 Windows API DLL 的情况下做到这一点?
unicode - 第一个正式支持 Unicode 的 MS Office 版本是什么?
我正在为我正在写的白皮书做一些关于 Unicode 的研究。有人记得 Windows 平台上完全兼容 Unicode 的第一个 MS Office 版本吗?没有太多运气从网上搜索这个答案。
python - 为什么 unicode() 只在我的对象上使用 str() 而没有给出编码?
我首先创建一个带有一些非 ascii utf-8编码数据的字符串变量:
使用unicode()
它会引发错误......
...但如果我知道编码,我可以将其用作第二个参数:
现在,如果我有一个在方法中返回此文本的类__str__()
:
unicode(r)
似乎使用str()
它,因为它引发了与上面相同的错误unicode(text)
:
到目前为止,一切都按计划进行!
但正如没有人会想到的那样,unicode(r, 'utf-8')
甚至不会尝试:
为什么?为什么会出现这种不一致的行为?它是一个错误吗?是有意的吗?很尴尬。
unicode - Toad unicode 输入问题
在 toad 中,我可以看到来自 oracle db 的 unicode 字符。但是当我单击数据网格中的某个字段进入编辑模式时,unicode 字符会转换为无意义的符号,但这不是大问题。
编辑此字段时,Unicode 字符会在我键入时正确显示。但是一旦我按下进入和退出编辑模式,它们就会被转换为最接近(最相似)的非 Unicode 字符。所以我不能在数据网格上输入 unicode 字符。复制和粘贴其中一个 unicode 字符也不起作用。
我该如何解决这个问题?
编辑:我使用的是蟾蜍 9.0.0.160。
php - 在 PHP 中将 UTF-8 字符串转换为/从 7 位 XML
UTF-8 字符串(即 8 位字符串)如何与 XML 兼容的 7 位字符串(即带有数字实体的可打印 ASCII)相互转换?
即encode()
这样的函数:
decode()
也很有用:
PHP 的htmlenties()
/html_entity_decode()
对没有做正确的事情:
费力地指定类型会有所帮助,但仍会返回与 XML 不兼容的命名实体,而不是数字实体:
java - 一旦 UTF-8 编码,如何截断 java 字符串以适应给定的字节数?
我如何截断一个 java String
,以便我知道一旦它被 UTF-8 编码,它将适合给定数量的字节存储?