问题标签 [utf-16]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
17052 浏览

c++ - 有效的语言环境名称

如何找到有效的语言环境名称?

我目前正在使用 MAC OS X。
但有关其他平台的信息也会很有用。

0 投票
2 回答
2024 浏览

c++ - UTF-16 编解码器方面

从这个关于语言环境
的问题扩展 并在这个问题中描述:我真正想做的是在理解 UTF-16 文件的语言环境中安装一个 codecvt 方面。

我可以自己写。但我不是 UTF 专家,因此我相信我会得到它几乎正确的;但它会在最不方便的时候坏掉。所以我想知道是否有任何资源(在网络上)可以从 C++ 使用经过同行评审和测试的预构建 codecvt(或其他)方面?

原因是读取文件时的默认语言环境(在我的系统 MAC OS X 10.6 上)只是将 1 字节转换为 1 wchar_t 而没有转换。因此 UTF-16 编码文件被转换为包含大量空 ('\0') 字符的 wstrings。

0 投票
3 回答
2562 浏览

unicode - UTF-16LE 与 UTF32-LE 的 Unicode BOM

用于 UTF16-LE 和 UTF-32LE 的字节顺序标记之间似乎存在歧义。特别是,考虑一个包含以下 8 个字节的文件:

如何判断此文件是否包含:

  1. UTF16-LE BOM (FF FE) 后跟 3 个空字符;或者
  2. UTF32-LE BOM (FF FE 00 00) 后跟一个空字符?

此处描述了 Unicode BOM:http: //unicode.org/faq/utf_bom.html#bom4但没有讨论这种歧义。我错过了什么吗?

0 投票
5 回答
5202 浏览

java - Java 将 int 隐式转换为 byte

我即将开始做一些需要读取字节和创建字符串的事情。正在读取的字节代表 UTF-16 字符串。所以只是为了测试一下,我想将 UTF-16 编码的简单字节数组转换为字符串。数组中的前 2 个字节必须代表字节顺序,因此必须是 0xff 0xfe 或 0xfe 0xff。所以我尝试按如下方式创建我的字节数组:

但是我收到了一个错误,因为 0xFF 和 0xFE 太大而无法放入一个字节(因为字节是用 Java 签名的)。更准确地说,错误是 int 无法转换为字节。我知道我可以通过强制转换从 int 显式转换为 byte 并获得所需的结果,但这不是我的问题所在。

只是为了尝试一些东西,我创建了一个字符串并调用 getBytes("UTF-16") 然后打印数组中的每个字节。输出有点混乱,因为前两个字节是 0xFFFFFFFE 0xFFFFFFFF,然后是 0x00 0x52 0x00 0x6F。(显然这里的字节序与我在上面试图创建的不同,但这并不重要)。

使用此输出,我决定尝试以相同的方式创建我的字节数组:

奇怪的是,它工作得很好。所以我的问题是,为什么 Java 允许 0xFFFFFF80 或更大的整数值在没有显式转换的情况下自动转换为字节,但等于或大于 0x80 的任何值都需要显式转换?

0 投票
2 回答
596 浏览

iphone - 在韩语的字素簇内搜索或比较

在我当前的实现中,UISearchBarController[NSString compare:]filterContentForSearchText:scope:委托方法中使用基于它们的名称属性将相关对象返回到UITableView您开始输入的结果中。

到目前为止,这在英语和韩语中效果很好,但我想做的是在NSString's 定义的字符簇中进行搜索。这仅适用于少数几种语言,韩语就是其中之一。

在英语中,compare:在您输入每个字母后返回新结果,但在韩语中,一旦您完成识别的字素簇,就会生成结果。我希望能够通过构成音节的各个元素来搜索我的韩语对象名称属性。

任何人都可以阐明如何解决这个问题吗?我确信它与手动搜索 UTF16 字符或使用较低级别的类有关。

干杯!

这是一个不起作用的特定示例:

结果总是 NSNotFound,有或没有decomposedStringWithCanonicalMapping.

有任何想法吗?

0 投票
2 回答
973 浏览

java - 从 Java 中的 ZIP 存档中提取 UTF-16 编码文件

在代码的最后一部分,我打印了 Reader 给我的内容。但这只是假的,我哪里做错了?

0 投票
3 回答
2538 浏览

php - 从 XML 读取 UTF-16(或 UTF-8)值并使用 PHP 显示结果

我在使用 unicode (UTF-16) 值和 PHP/XML 时遇到了很多麻烦。我想从 XML 中读取一组 unicode 值并将正确的字形输出到浏览器。我已经尝试过使用 UTF-8,但我遇到了同样的问题。

这是我在第一次测试中使用的一个简单的工作示例:

上述代码的输出:

但是,当我尝试从 XML 中获取值时,事情就停止了。

XML:

在 php 中,我从上面的 xml 中读取每个值,分成对和格式,例如 \x00\x41 等。

PHP:

在浏览器中输出:

问号应该是A、B、C、D、E、F。

我究竟做错了什么?

谢谢。

0 投票
1 回答
1660 浏览

c++ - utf-8 到/从 utf-16 问题

我基于这两个转换函数和 StackOverflow 上的答案,但是来回转换不起作用:

0 投票
2 回答
713 浏览

java - Java文件解析工具包设计,快速文件编码完整性检查

(免责声明:我在询问之前查看了这里的一些帖子,我发现这个特别有帮助,如果可能的话,我只是在寻找你们的一些理智检查)

大家好,

我有一个内部 Java 产品,用于处理加载到数据库中的数据文件(又名 ETL 工具)。我为 XSLT 转换准备了阶段,并在原始文件中进行了模式替换等操作。输入文件可以是任何格式,它们可以是平面数据文件或 XML 数据文件,您可以配置加载特定数据馈送所需的阶段。

到目前为止,我一直忽略文件编码的问题(我知道这是一个错误),因为一切正常(主要)。但是,我现在遇到了文件编码问题,长话短说,由于阶段可以一起配置的方式的性质,我需要检测输入文件的文件编码并创建一个 Java Reader 对象适当的论据。在我深入研究我无法声称完全理解的事情之前,我只是想和你们一起做一个快速的理智检查:

  1. 对从我的工具包中每个阶段输出的所有文件采用 UTF-16 的标准文件编码(我不排除将来加载双字节字符)
  2. 使用JUniversalChardetjchardet嗅探输入文件编码
  3. 使用 Apache Commons IO 库为所有阶段创建标准读取器和写入器(我是否认为这没有类似的编码嗅探 API?)

您在我概述的方法中看到任何陷阱/有任何额外的智慧吗?

有什么方法可以保证与使用我现有的让 Java 运行时决定 windows-1252 编码的方法加载的任何数据的向后兼容性?

提前致谢,

-詹姆士

0 投票
2 回答
2792 浏览

xml - 我可以在 UTF-8 编码的 XML 中包含诸如“ã”和“ê”之类的字符,还是必须使用 UTF-16 编码?

我可以在 UTF-8 编码的 XML 中包含诸如“ã”和“ê”之类的字符,还是必须使用 UTF-16 编码?