问题标签 [utf-16]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3862 浏览

php - PHP - UTF-16 到 UTF-8(十六进制)的转换

是否可以使用 PHP 将 UTF-16
U+610F
样式字符转换为 UTF-8(十六进制) ?
E6848F

UTF-8 字符是 '意'

0 投票
2 回答
2501 浏览

c++ - utf8 和 utf16 转换

我有一个wchar_t字符串,比如L"hao123--我的上网主页",可以转成utf8

编码,输出字符串是“hao123锛嶏紞鎴戠殑涓婄绣涓婚〉”,但最后还是要写这个

字符串转换为纯文本文件,其格式为 utf16(我从其他人那里知道),“hao123\uFF0D\uFF0D\u6211\u7684\u4E0A\u7F51\u4E3B\u9875”。

因为我必须将它保存在 C++ std 字符串中,然后将其写入文件,我该如何转换

“hao123锛嶏紞鎴戠殑涓婄绣涓婚>”到“hao123\uFF0D\uFF0D\u6211\u7684\u4E0A\u7F51\u4E3B\u9875”在char或C++标准字符串中?

谁能给我一些提示?

提前致谢!

0 投票
2 回答
7104 浏览

c++ - C++ unicode UTF-16 编码

我有一个宽字符字符串是L"hao123--我的上网主页",必须编码为"hao123--\u6211\u7684\u4E0A\u7F51\u4E3B\u9875"。有人告诉我,编码字符串是一种特殊的“%uNNNN”格式,用于编码 Unicode UTF-16 代码点。在这个网站上,它告诉我它是 JavaScript 转义。但我不知道如何用 C++ 对其进行编码。

有什么图书馆可以让它工作吗?或者给我一些提示。

谢谢我的朋友们!

0 投票
3 回答
26820 浏览

string - 将 UTF-8 字符串存储在 UnicodeString 中

在 Delphi 2007 中,您可以将 UTF-8 字符串存储在 WideString 中,然后将其传递给 Win32 函数,例如

Delphi 2007 不会干扰 UTF8Str 的内容,即它作为 UTF-8 编码的字符串存储在 WideString 中。

但在 Delphi 2010 中,我正在努力寻找一种方法来做同样的事情,即将 UTF-8 编码的字符串存储在 WideString 中,而不会自动从 UTF-8 转换。我无法将指针传递给 UTF-8 字符串(或 RawByteString),例如以下内容显然不起作用:

0 投票
2 回答
1040 浏览

php - PHP utf编码问题

如何在 PHP 中以 UTF-16BE 格式编码字符串?对于“演示消息!!!” 编码的字符串应该是“00440065006D006F0020004D00650073007300610067006”。另外,我需要将阿拉伯字符编码为这种格式。

0 投票
1 回答
1119 浏览

vb.net - 如何定义包含非 ASCII 字符的字符串文字?

我正在使用 Visual Studio 2008 在 VB.NET 中编程。我需要定义一个字符串文字,其中包含与 Chr(247) 等效的字符“÷”。我知道 VS 在内部使用 UTF-16 编码,但是当源文件写入磁盘时,它包含该字符的单字节值 F7。

此源文件由另一个默认使用 UTF-8 编码的程序处理,因此无法正确解释此字符,并尝试将其与以下单字节字符组合。什么编码可以正确地将单字节 F7 解释为单字符 ÷?

或者,是否有一种方法可以表达仅使用 ASCII 字符的非 ASCII 文字——比如使用某种转义序列?

0 投票
9 回答
67566 浏览

c - 在 Windows 和 Linux 下,在 C 中将 UTF-16 转换为 UTF-8

我想知道是否有推荐的“跨”Windows 和 Linux 方法用于将字符串从 UTF-16LE 转换为 UTF-8?还是应该为每种环境使用不同的方法?

我设法在谷歌上搜索了一些对 'iconv' 的引用,但出于某种原因,我找不到基本转换的示例,例如 - 将 wchar_t UTF-16 转换为 UTF-8。

任何人都可以推荐一种“交叉”的方法,如果您知道参考资料或样本指南,将不胜感激。

谢谢, 多里酒吧

0 投票
2 回答
1495 浏览

java - Java、JavaCC:如何解析 BMP 之外的字符?

我指的是 XML 1.1 规范

看看 的定义NameStartChar

NameStartChar ::= ":" | [A-Z] | "_" | [a-z] | [#xC0-#xD6] | [#xD8-#xF6] | [#xF8-#x2FF] | [#x370-#x37D] | [#x37F-#x1FFF] | [#x200C-#x200D] | [#x2070-#x218F] | [#x2C00-#x2FEF] | [#x3001-#xD7FF] | [#xF900-#xFDCF] | [#xFDF0-#xFFFD] | [#x10000-#xEFFFF]

如果我正确解释,最后一个范围 ( #x10000-#xEFFFF) 超出了Java类型的UTF16 范围。char所以它必须是UTF32,对吧?所以,我需要char根据这个范围检查对,而不是单个chars,对吧?

我的问题是:

  • 如何使用标准 Java 方法检查此类字符范围?
  • 如何在 JavaCC 中定义这样的范围?
    • JavaCC 抱怨\u10000\uEFFFF

谢谢!

注意: 别担心,我不是在尝试编写自己的 XML 解析器。
编辑: 我正在编写一个解析器,它将检查来自其他(非 XML)文本格式的文本输入是否与有效的 XML 名称匹配。

0 投票
3 回答
13361 浏览

perl - 当我不知道字节顺序时,如何在 Perl 中解码 UTF-16 数据?

如果我打开一个文件(并直接指定一个编码):

我可以很好地阅读文件内容。但是,如果我这样做:

我收到以下错误:

我怎样才能让它工作decode

编辑:这里是前几个字节:

0 投票
1 回答
744 浏览

python - Python:UTF16 解码在 Windows 框上增加了一个新的空行

我在 windows 和 *nix 平台上遇到了额外换行符的问题。

在我的 Mac 上运行此代码可以正常工作 - 我在没有额外换行符的情况下取回了我的文件。到目前为止,我已经尝试过:

  1. 将正则表达式编码为 utf-16 而不是解码文件 - 在 Windows 和 OSX 上中断。

  2. 以 'wb' 模式而不是 'w+' 模式写入 - 在 Windows 上中断。

有任何想法吗?