问题标签 [utf-32]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - java: UTF-32 到 UTF-16 的转换器
我正在尝试获取 java 转义码。
示例:1F612
==>\ud83d\ude12
我试过了:
格式UTF功能:
但输出:
注意:1F612
十六进制 =128530
整数
请帮忙。
c++ - Unicode、UTF-8、UTF-16 和 UTF-32 问题
我读了很多关于 Unicode、ASCII、代码页、所有历史、UTF-8、UTF-16 (UCS-2)、UTF-32 (UCS-4) 的发明以及使用它们的人等等,但我仍然有一些我试图找到答案但我找不到答案的问题,我希望你能帮助我。
1 - Unicode 是编码字符的标准,它们为每个字符指定一个代码点。像 U+0000 (示例)。想象一下,我有一个包含这些代码点 (\u0000) 的文件,我将在应用程序的哪个点使用它?
这可能是一个愚蠢的问题,但我真的不知道我将在应用程序的哪一点使用它。我正在创建一个应用程序,它可以使用转义读取具有这些代码点的文件,\u
我知道我可以读取它,解码它,但现在是下一个问题。
2 - 我需要将其转换为哪个字符集(代码页)?我看到一些 C++ 库,他们使用名称utf8_to_unicode
orutf8-to-utf16
并且也仅utf8_decode
,这让我感到困惑。
我不知道会不会出现这样的答案,但是有人可能会说:你需要把它转换成你要使用的代码页,但是如果我的应用程序需要国际化怎么办?
3 - 我想知道,在 C++ 中,如果我尝试在终端上显示非 ASCII 字符,我会得到一些令人困惑的单词。问题是:是什么让要显示的字符是字体?
输出(Windows):
├├</p>
4 - 编码进入该过程的哪个部分?它编码,获取代码点并尝试在字体上找到相等的单词?
5 = WebKit 是一个用于在 Web 浏览器中呈现网页的引擎,如果您将字符集指定为 UTF-8,它可以很好地处理所有字符,但如果我指定另一个字符集,它不会,我的字体无关紧要'米使用,会发生什么?
输出:
一个¶
使用:
6 - 现在想象一下,我读取了文件,对它进行了编码,我拥有了所有的代码点,我需要再次保存文件。我需要将其保存为编码(\u0000)还是我需要先解码以再次转换为字符然后保存?
7 - 为什么“unicode”这个词有点重,有时被理解为 utf-16?(来源)
目前为止就这样了。提前致谢。
java - 如何在 Java 中编写 3 个字节的 unicode 文字?
我想用 Java 编写 unicode 文字 U+10428。 http://www.marathon-studios.com/unicode/U10428/Deseret_Small_Letter_Long_I
我尝试使用 '\u10428' 并没有编译。
c++ - std::wstring 在 Windows 上是否支持 UTF-16 和 UTF-32?
我正在学习 Unicode,并且有几个问题希望得到解答。
1)我在 Linux 上读过,std::wstring是 4 字节,而在 Windows 上,它是 2 字节。这是否意味着 Linux 内部支持是UTF-32而 Windows 是UTF-16?
2) std::wstring 的使用是否与 std::string 接口非常相似?
3) VC++ 是否支持使用 4 字节 std::wstring?
4) 如果使用 std::wstring,是否必须更改编译器选项?
作为旁注,我遇到了一个使用 UTF-8 的字符串库,它具有与 std::string 非常相似的接口,它提供了熟悉的功能,例如长度、substr、查找、大写/小写转换等。该库是Glib ::ustring。
请随时添加任何评论或其他建议,因为我真的需要它。
谢谢!
vb.net - 将纯文本文件中的 =00 格式化 UTF 代码转换为 vb.net 中正确的 utf 字符
编写一个简单的程序以从一个大的纯文本文件中提取所有邮政地址,但由于某些地址使用非标准字符而存在问题。
这是我需要处理的文件中的一些源文本:
Rua Vale de Louro, N=BA 97 Bloco 2, 1=BA A
但它需要阅读:
Rua Vale de Louro, Nº 97 Bloco 2, 1º A
现在显然我可以为这个字符做一个简单的替换,但我需要它来处理每个字符。
BA 是 utf32 中 º 符号的十六进制值(尽管前面有一个零负载)所以如果我可以编写一些代码来查找字符串中的所有这些“=xx”实例并将它们替换为可以解决的正确 utf 字符它。但对于我的生活,我无法弄清楚如何。
任何人都可以帮忙吗?
谢谢
java - 使用 Python 导出基于二进制的文件
我目前正在为 Blender 开发一个导出脚本,但是我觉得我的问题通常更多地基于 Python,所以我在这里发布了它。
一位朋友在 java 中为 .obj 文件创建了一个转换程序,将它们转换为自定义的二进制文件格式。但是,我想跳过该过程并直接从 Blender 导出二进制文件。
该文件包含文本、整数和浮点数,使用 utf-8、utf-16 和 utf-32 格式。
到目前为止,我已将所有数据导出为标准文本文件,因此我只需要以适当的编码/格式输出它。这是他在 Java 中使用的代码,用于以不同的编码将数据写入文件:
我不知道如何做到这一点是 Python,我正在尝试这个,看看我是否至少可以让整数正确输出,但没有运气。
示例用法:
也试过这个:
我对整个二进制/编码的事情有点迷茫,我已经阅读了 Python 文档,但它没有帮助。
任何指向教程或示例的链接都会很棒!
json - 什么字符集用于带有 base64 编码二进制数据的 json?
用于使用 base64 编码的二进制数据的 JSON(UTF-8/16/32)最节省空间的字符集是什么?
unicode - Unicode 是否有定义的最大代码点数?
我已经阅读了很多文章以了解 Unicode 代码点的最大数量,但我没有找到最终答案。
我知道 Unicode 代码点已最小化,以使所有 UTF-8 UTF-16 和 UTF-32 编码都能够处理相同数量的代码点。但是这个代码点的数量是多少?
我遇到的最常见的答案是 Unicode 代码点在 0x000000 到 0x10FFFF (1,114,112 个代码点)的范围内,但我也在其他地方读到它是 1,112,114 个代码点。那么是否有一个数字可以给出,或者问题是否比这更复杂?
c# - 将 UTF-32 (HEX) 转换为字符串时出现 ArgumentOutOfRangeException
我无法将一些 UTF-32 HEX 转换为字符串。我收到此错误消息
“有效的 UTF32 值介于 0x000000 和 0x10ffff(含)之间,并且不应包含代理代码点值(0x00d800 ~ 0x00dfff)。参数名称:utf32”
使用此代码时
当我使用这个 HEX“9FDB”时,它可以正常工作。我究竟做错了什么?