问题标签 [unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
460 浏览

python - 在 Python 3.0 中,标准库中的所有内容都会将字符串视为 unicode 吗?

既然 Python(从 3.0 开始)是基于 unicode 的,我对标准库的行为方式有点困惑。CGI 和 urllib 等模块会使用 unicode 字符串,还是会使用新的“字节”类型并仅提供编码数据?

0 投票
6 回答
2754 浏览

unicode - 不同语言的最小 Unicode 编码?

不同语言中不同 unicode 编码的典型平均每字符字节数是多少?

例如,如果我想要最少的字节数来编码一些英文文本,那么平均而言,UTF-8 将是每个字符 1 个字节,而 UTF-16 将是 2,所以我会选择 UTF-8。

如果我想要一些韩文文本,那么 UTF-16 可能平均每个字符大约 2 个,但 UTF-8 可能平均大约 3 个(我不知道,我只是在这里编一些说明性数字)。

哪种编码对不同的语言和字符集产生最小的存储要求?

0 投票
2 回答
47373 浏览

java - Java中如何判断一个字符是否为字母?

你如何检查一个字符的字符串是否是一个字母 - 包括任何带有重音符号的字母?

我最近必须解决这个问题,所以在最近的 VB6 问题提醒我之后,我会自己回答。

0 投票
2 回答
4021 浏览

c# - 如何以正确的字体呈现 unicode 字符?(C#/WinForms)

我的应用程序正确处理不同类型的字符集,但仅限于内部 - 在标准 WinForms 标签和文本框中显示文本时,中文字符似乎存在问题。

问题似乎是使用的字体(Tahoma),因为当我复制和粘贴文本或在调试器中查看它时,它会正确显示。此外,当我将 MS Mincho 设置为要使用的字体时,屏幕上的字符看起来还不错。

当然,我不想在整个应用程序中使用 MS Mincho。我是否必须根据显示的字符切换字体,还是我错过了更好的方法?

0 投票
6 回答
8947 浏览

asp.net - 有没有办法以编程方式确定字体文件是否具有特定的 Unicode 字形?

我正在开发一个项目,该项目可以生成包含相当复杂的数学和科学公式的 PDF。文本以 Times New Roman 呈现,它具有很好的 Unicode 覆盖率,但并不完整。我们有一个系统可以为在 TNR 中没有字形的代码点(如大多数“陌生”数学符号)交换更 Unicode 完整的字体,但我似乎找不到查询的方法*.ttf 文件以查看是否存在给定的字形。到目前为止,我只是硬编码了一个存在哪些代码点的查找表,但我更喜欢自动解决方案。

我在 ASP.net 下的 Web 系统中使用 VB.Net,但任何编程语言/环境中的解决方案都将不胜感激。

编辑:win32 解决方案看起来很棒,但我要解决的具体情况是在 ASP.Net Web 系统中。有没有办法在我的网站中不包含 Windows API DLL 的情况下做到这一点?

0 投票
2 回答
639 浏览

unicode - 第一个正式支持 Unicode 的 MS Office 版本是什么?

我正在为我正在写的白皮书做一些关于 Unicode 的研究。有人记得 Windows 平台上完全兼容 Unicode 的第一个 MS Office 版本吗?没有太多运气从网上搜索这个答案。

0 投票
2 回答
1106 浏览

python - 为什么 unicode() 只在我的对象上使用 str() 而没有给出编码?

我首先创建一个带有一些非 ascii utf-8编码数据的字符串变量:

使用unicode()它会引发错误......

...但如果我知道编码,我可以将其用作第二个参数:

现在,如果我有一个在方法中返回此文本的类__str__()

unicode(r)似乎使用str()它,因为它引发了与上面相同的错误unicode(text)

到目前为止,一切都按计划进行!

但正如没有人会想到的那样,unicode(r, 'utf-8')甚至不会尝试:

为什么?为什么会出现这种不一致的行为?它是一个错误吗?是有意的吗?很尴尬。

0 投票
2 回答
4917 浏览

unicode - Toad unicode 输入问题

在 toad 中,我可以看到来自 oracle db 的 unicode 字符。但是当我单击数据网格中的某个字段进入编辑模式时,unicode 字符会转换为无意义的符号,但这不是大问题。

编辑此字段时,Unicode 字符会在我键入时正确显示。但是一旦我按下进入和退出编辑模式,它们就会被转换为最接近(最相似)的非 Unicode 字符。所以我不能在数据网格上输入 unicode 字符。复制和粘贴其中一个 unicode 字符也不起作用。

我该如何解决这个问题?

编辑:我使用的是蟾蜍 9.0.0.160。

0 投票
2 回答
5382 浏览

php - 在 PHP 中将 UTF-8 字符串转换为/从 7 位 XML

UTF-8 字符串(即 8 位字符串)如何与 XML 兼容的 7 位字符串(即带有数字实体的可打印 ASCII)相互转换?

encode()这样的函数:

decode()也很有用:

PHP 的htmlenties()/html_entity_decode()对没有做正确的事情:

费力地指定类型会有所帮助,但仍会返回与 XML 不兼容的命名实体,而不是数字实体:

0 投票
7 回答
34508 浏览

java - 一旦 UTF-8 编码,如何截断 java 字符串以适应给定的字节数?

我如何截断一个 java String,以便我知道一旦它被 UTF-8 编码,它将适合给定数量的字节存储?