问题标签 [utf-32]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
unicode - 如果我的程序仅适用于 Unicode 编码的文件,我是否可以考虑如果没有提供 BOM,编码是没有 BOM 的 UTF-8?
我的问题是“如果不提供 BOM,UTF-16 和 UTF-32 编码的文件是否被认为是正确的?”
linux - 如何 grep 包含 UTF-16 或 UTF-32 编码文件的文件夹?
一个文件夹中存在三个相同txt
的文件,每个文件里面只有一个单词:“你好”。第一个文件在 中编码UTF-8
,第二个在UTF-16
,最后一个在UTF-32
(在 linux 上创建的所有文件)。但是使用 grep
只返回一个结果,它是UTF-8
-file。Grep 找不到其他两个文件。
如何 grep 部分包含UTF-16
或UTF-32
编码文件的文件夹?
sqlite - 如何将片假名添加到 SQLite3?
我希望将片假名写入 SQLite3 数据库,我知道 SQLite3 使用 UTF-16,并且想知道是否有任何方法可以合并 UTF-32 位字符集。如果没有办法,那么有人可以建议如何将片假名作为文本输入到 SQLite 数据库中。
javascript - ECMAScript 中的 UTF-32 解码
我有 UTF-32 数据,一个数组缓冲区。我需要将其转换为 ECMAScript 字符串。
有人告诉我,我可以将 TextDecoder 与 UTF-8 一起使用,而且它应该“正常工作”,我非常怀疑告诉我这个的人,但它仍然有效。
除了...输出文本充满了空字符(每个字符 3 个),因为将空字节填充读取为空字符,而不是将整个四个字节作为一个字符读取。例如:
\x70\x00\x00\x00
变成
P
UTF-32;空填充被读取为一个字符
P\0\0\0
UTF-8;分开的
根据 whatwg 编码规范,UTF-32 没有定义为要使用的编码标签,而是只有 UTF-8 和 UTF-16,而不是 UTF-32,有没有人对我如何实现正确的有任何建议UTF-32 解码,在浏览器中?
需要明确的是,我关心现代浏览器,所以我不包括 IE、Amaya、Android Webview 和 Netscape Navigator 等。
c# - 如何在 Framework 4.x 中将 unicode 代码点转换为字符串?
如何在 .NET Framework 4.7.2 中将“补充”Unicode 代码点(21 位)转换为系统字符串?似乎在 .NET 5.0 中, Char.ConvertFromUtf32() 方法处理了这个问题,但在 .NET 框架中,此方法无法处理高于“基本多语言平面”范围的值。我需要这样的东西:
产生这个:。
我努力了:
但它只是给了我:礼物(0x1F381)是???。
我如何编写代码以在 .NET 框架 4.7.2 中工作?
c++ - c++如何在没有 ICU(gcc/cl 编译器)之类的东西的情况下在没有 wchar 的情况下在 c++ 中使用 utf-8 和/或 utf-32?
我尝试了很多东西,但它们似乎不起作用。
请注意,我希望 utf-8/utf-32 不仅在这种情况下工作,而且在大多数情况下不使用宽字符之类的东西。
php - 使用 preg_match_all 和 UTF-8 正确 PREG_OFFSET_CAPTURE
我正在使用 preg_match_all 在字符串中查找所有标签及其位置
它适用于 Windows-1251,但是一旦我切换到 UTF-8(并将 /u 添加到正则表达式)
它可以正确识别标签,但会错误计算偏移量。
为了解决这个问题,我尝试转换为 UTF-32
这打破了更多,它返回 void$tags
数组。
我试图将正则表达式与文本一起转换:
但它现在甚至看不到正则表达式:
所以我的问题是如何使 preg_match_all 与 UTF-32 一起工作?或者如何修复 UTF-8 编码的不正确偏移量。
PS我尝试了UTF-16,结果相同。PPS php 文件编码为 UTF-8。
c++ - 如何检查国际文件路径符号的正确性?
在我的 c++ linux 应用程序中,我加载了一个带有文件列表的文件。
每一行都是某个文件 (utf32) 的完整路径,并且可以包含国际符号。
有没有办法检查这些行的字符正确性?也许一些图书馆?
需要避免使用表情符号或类似的符号。
这些文件在外面,所以我无法检查每个文件的可用性。
提前致谢。
utf-32 - 除了 utf32 数据集还有其他字符吗
utf32数据集之外是否存在或可能存在一些旧字符或新字符?
有更大的数据集吗?
只是一个随机的问题..