问题标签 [utf-16]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 有效的语言环境名称
如何找到有效的语言环境名称?
我目前正在使用 MAC OS X。
但有关其他平台的信息也会很有用。
unicode - UTF-16LE 与 UTF32-LE 的 Unicode BOM
用于 UTF16-LE 和 UTF-32LE 的字节顺序标记之间似乎存在歧义。特别是,考虑一个包含以下 8 个字节的文件:
如何判断此文件是否包含:
- UTF16-LE BOM (FF FE) 后跟 3 个空字符;或者
- UTF32-LE BOM (FF FE 00 00) 后跟一个空字符?
此处描述了 Unicode BOM:http: //unicode.org/faq/utf_bom.html#bom4但没有讨论这种歧义。我错过了什么吗?
java - Java 将 int 隐式转换为 byte
我即将开始做一些需要读取字节和创建字符串的事情。正在读取的字节代表 UTF-16 字符串。所以只是为了测试一下,我想将 UTF-16 编码的简单字节数组转换为字符串。数组中的前 2 个字节必须代表字节顺序,因此必须是 0xff 0xfe 或 0xfe 0xff。所以我尝试按如下方式创建我的字节数组:
但是我收到了一个错误,因为 0xFF 和 0xFE 太大而无法放入一个字节(因为字节是用 Java 签名的)。更准确地说,错误是 int 无法转换为字节。我知道我可以通过强制转换从 int 显式转换为 byte 并获得所需的结果,但这不是我的问题所在。
只是为了尝试一些东西,我创建了一个字符串并调用 getBytes("UTF-16") 然后打印数组中的每个字节。输出有点混乱,因为前两个字节是 0xFFFFFFFE 0xFFFFFFFF,然后是 0x00 0x52 0x00 0x6F。(显然这里的字节序与我在上面试图创建的不同,但这并不重要)。
使用此输出,我决定尝试以相同的方式创建我的字节数组:
奇怪的是,它工作得很好。所以我的问题是,为什么 Java 允许 0xFFFFFF80 或更大的整数值在没有显式转换的情况下自动转换为字节,但等于或大于 0x80 的任何值都需要显式转换?
iphone - 在韩语的字素簇内搜索或比较
在我当前的实现中,UISearchBarController
我[NSString compare:]
在filterContentForSearchText:scope:
委托方法中使用基于它们的名称属性将相关对象返回到UITableView
您开始输入的结果中。
到目前为止,这在英语和韩语中效果很好,但我想做的是在NSString
's 定义的字符簇中进行搜索。这仅适用于少数几种语言,韩语就是其中之一。
在英语中,compare:
在您输入每个字母后返回新结果,但在韩语中,一旦您完成识别的字素簇,就会生成结果。我希望能够通过构成音节的各个元素来搜索我的韩语对象名称属性。
任何人都可以阐明如何解决这个问题吗?我确信它与手动搜索 UTF16 字符或使用较低级别的类有关。
干杯!
这是一个不起作用的特定示例:
结果总是 NSNotFound,有或没有decomposedStringWithCanonicalMapping
.
有任何想法吗?
java - 从 Java 中的 ZIP 存档中提取 UTF-16 编码文件
在代码的最后一部分,我打印了 Reader 给我的内容。但这只是假的,我哪里做错了?
php - 从 XML 读取 UTF-16(或 UTF-8)值并使用 PHP 显示结果
我在使用 unicode (UTF-16) 值和 PHP/XML 时遇到了很多麻烦。我想从 XML 中读取一组 unicode 值并将正确的字形输出到浏览器。我已经尝试过使用 UTF-8,但我遇到了同样的问题。
这是我在第一次测试中使用的一个简单的工作示例:
上述代码的输出:
但是,当我尝试从 XML 中获取值时,事情就停止了。
XML:
在 php 中,我从上面的 xml 中读取每个值,分成对和格式,例如 \x00\x41 等。
PHP:
在浏览器中输出:
问号应该是A、B、C、D、E、F。
我究竟做错了什么?
谢谢。
c++ - utf-8 到/从 utf-16 问题
我基于这两个转换函数和 StackOverflow 上的答案,但是来回转换不起作用:
java - Java文件解析工具包设计,快速文件编码完整性检查
(免责声明:我在询问之前查看了这里的一些帖子,我发现这个特别有帮助,如果可能的话,我只是在寻找你们的一些理智检查)
大家好,
我有一个内部 Java 产品,用于处理加载到数据库中的数据文件(又名 ETL 工具)。我为 XSLT 转换准备了阶段,并在原始文件中进行了模式替换等操作。输入文件可以是任何格式,它们可以是平面数据文件或 XML 数据文件,您可以配置加载特定数据馈送所需的阶段。
到目前为止,我一直忽略文件编码的问题(我知道这是一个错误),因为一切正常(主要)。但是,我现在遇到了文件编码问题,长话短说,由于阶段可以一起配置的方式的性质,我需要检测输入文件的文件编码并创建一个 Java Reader 对象适当的论据。在我深入研究我无法声称完全理解的事情之前,我只是想和你们一起做一个快速的理智检查:
- 对从我的工具包中每个阶段输出的所有文件采用 UTF-16 的标准文件编码(我不排除将来加载双字节字符)
- 使用JUniversalChardet或jchardet嗅探输入文件编码
- 使用 Apache Commons IO 库为所有阶段创建标准读取器和写入器(我是否认为这没有类似的编码嗅探 API?)
您在我概述的方法中看到任何陷阱/有任何额外的智慧吗?
有什么方法可以保证与使用我现有的让 Java 运行时决定 windows-1252 编码的方法加载的任何数据的向后兼容性?
提前致谢,
-詹姆士
xml - 我可以在 UTF-8 编码的 XML 中包含诸如“ã”和“ê”之类的字符,还是必须使用 UTF-16 编码?
我可以在 UTF-8 编码的 XML 中包含诸如“ã”和“ê”之类的字符,还是必须使用 UTF-16 编码?