问题标签 [utf-32]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
10235 浏览

c++ - 使用 C/C++ 转义 unicode 字符

0 投票
1 回答
849 浏览

java - java: UTF-32 到 UTF-16 的转换器

我正在尝试获取 java 转义码。
示例1F612==>\ud83d\ude12

我试过了:

格式UTF功能:

但输出:

注意1F612十六进制 =128530整数

请帮忙。

0 投票
1 回答
851 浏览

c++ - Unicode、UTF-8、UTF-16 和 UTF-32 问题

我读了很多关于 Unicode、ASCII、代码页、所有历史、UTF-8、UTF-16 (UCS-2)、UTF-32 (UCS-4) 的发明以及使用它们的人等等,但我仍然有一些我试图找到答案但我找不到答案的问题,我希望你能帮助我。

1 - Unicode 是编码字符的标准,它们为每个字符指定一个代码点。像 U+0000 (示例)。想象一下,我有一个包含这些代码点 (\u0000) 的文件,我将在应用程序的哪个点使用它?

这可能是一个愚蠢的问题,但我真的不知道我将在应用程序的哪一点使用它。我正在创建一个应用程序,它可以使用转义读取具有这些代码点的文件,\u我知道我可以读取它,解码它,但现在是下一个问题。

2 - 我需要将其转换为哪个字符集(代码页)?我看到一些 C++ 库,他们使用名称utf8_to_unicodeorutf8-to-utf16并且也仅utf8_decode,这让我感到困惑。

我不知道会不会出现这样的答案,但是有人可能会说:你需要把它转换成你要使用的代码页,但是如果我的应用程序需要国际化怎么办?

3 - 我想知道,在 C++ 中,如果我尝试在终端上显示非 ASCII 字符,我会得到一些令人困惑的单词。问题是:是什么让要显示的字符是字体?

输出(Windows):

├├</p>

4 - 编码进入该过程的哪个部分?它编码,获取代码点并尝试在字体上找到相等的单词?

5 = WebKit 是一个用于在 Web 浏览器中呈现网页的引擎,如果您将字符集指定为 UTF-8,它可以很好地处理所有字符,但如果我指定另一个字符集,它不会,我的字体无关紧要'米使用,会发生什么?

输出:

一个¶

使用:

6 - 现在想象一下,我读取了文件,对它进行了编码,我拥有了所有的代码点,我需要再次保存文件。我需要将其保存为编码(\u0000)还是我需要先解码以再次转换为字符然后保存?

7 - 为什么“unicode”这个词有点重,有时被理解为 utf-16?(来源

目前为止就这样了。提前致谢。

0 投票
1 回答
3526 浏览

java - 如何在 Java 中编写 3 个字节的 unicode 文字?

我想用 Java 编写 unicode 文字 U+10428。 http://www.marathon-studios.com/unicode/U10428/Deseret_Small_Letter_Long_I

我尝试使用 '\u10428' 并没有编译。

0 投票
2 回答
5790 浏览

c++ - std::wstring 在 Windows 上是否支持 UTF-16 和 UTF-32?

我正在学习 Unicode,并且有几个问题希望得到解答。

1)我在 Linux 上读过,std::wstring是 4 字节,而在 Windows 上,它是 2 字节。这是否意味着 Linux 内部支持是UTF-32而 Windows 是UTF-16

2) std::wstring 的使用是否与 std::string 接口非常相似?

3) VC++ 是否支持使用 4 字节 std::wstring?

4) 如果使用 std::wstring,是否必须更改编译器选项?

作为旁注,我遇到了一个使用 UTF-8 的字符串库,它具有与 std::string 非常相似的接口,它提供了熟悉的功能,例如长度、substr、查找、大写/小写转换等。该库是Glib ::ustring

请随时添加任何评论或其他建议,因为我真的需要它。

谢谢!

0 投票
2 回答
140 浏览

vb.net - 将纯文本文件中的 =00 格式化 UTF 代码转换为 vb.net 中正确的 utf 字符

编写一个简单的程序以从一个大的纯文本文件中提取所有邮政地址,但由于某些地址使用非标准字符而存在问题。

这是我需要处理的文件中的一些源文本:

Rua Vale de Louro, N=BA 97 Bloco 2, 1=BA A

但它需要阅读:

Rua Vale de Louro, Nº 97 Bloco 2, 1º A

现在显然我可以为这个字符做一个简单的替换,但我需要它来处理每个字符。

BA 是 utf32 中 º 符号的十六进制值(尽管前面有一个零负载)所以如果我可以编写一些代码来查找字符串中的所有这些“=xx”实例并将它们替换为可以解决的正确 utf 字符它。但对于我的生活,我无法弄清楚如何。

任何人都可以帮忙吗?

谢谢

0 投票
1 回答
488 浏览

java - 使用 Python 导出基于二进制的文件

我目前正在为 Blender 开发一个导出脚本,但是我觉得我的问题通常更多地基于 Python,所以我在这里发布了它。

一位朋友在 java 中为 .obj 文件创建了一个转换程序,将它们转换为自定义的二进制文件格式。但是,我想跳过该过程并直接从 Blender 导出二进制文件。

该文件包含文本、整数和浮点数,使用 utf-8、utf-16 和 utf-32 格式。

到目前为止,我已将所有数据导出为标准文本文件,因此我只需要以适当的编码/格式输出它。这是他在 Java 中使用的代码,用于以不同的编码将数据写入文件:

我不知道如何做到这一点是 Python,我正在尝试这个,看看我是否至少可以让整数正确输出,但没有运气。

示例用法:

也试过这个:

我对整个二进制/编码的事情有点迷茫,我已经阅读了 Python 文档,但它没有帮助。

任何指向教程或示例的链接都会很棒!

0 投票
1 回答
3855 浏览

json - 什么字符集用于带有 base64 编码二进制数据的 json?

用于使用 base64 编码的二进制数据的 JSON(UTF-8/16/32)最节省空间的字符集是什么?

0 投票
3 回答
16142 浏览

unicode - Unicode 是否有定义的最大代码点数?

我已经阅读了很多文章以了解 Unicode 代码点的最大数量,但我没有找到最终答案。

我知道 Unicode 代码点已最小化,以使所有 UTF-8 UTF-16 和 UTF-32 编码都能够处理相同数量的代码点。但是这个代码点的数量是多少?

我遇到的最常见的答案是 Unicode 代码点在 0x000000 到 0x10FFFF (1,114,112 个代码点)的范围内,但我也在其他地方读到它是 1,112,114 个代码点。那么是否有一个数字可以给出,或者问题是否比这更复杂?

0 投票
1 回答
1049 浏览

c# - 将 UTF-32 (HEX) 转换为字符串时出现 ArgumentOutOfRangeException

我无法将一些 UTF-32 HEX 转换为字符串。我收到此错误消息

“有效的 UTF32 值介于 0x000000 和 0x10ffff(含)之间,并且不应包含代理代码点值(0x00d800 ~ 0x00dfff)。参数名称:utf32”

使用此代码时

当我使用这个 HEX“9FDB”时,它可以正常工作。我究竟做错了什么?