问题标签 [utf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
713 浏览

c# - 需要帮助了解 UTF 编码

你好,我注意到当我使用 UTF-8 编码(无 BOM)保存文本文件时,我能够使用 C# 上的 UTF-16 编码完美地读取它。现在这让我有点困惑,因为 UTF-8 只使用 8 位,对吧?utf-16 每个字符占用 16 位。

现在想象一下,我在这个文件中将字符串“ab”写成 UTF-8,然后有一个字节用于字母“a”,另一个字节用于“b”。

好的,但是当使用 UTF-16 字符集时,如何读取这个 UTF-8 文件呢?在我看来,在读取文件时,“ab”的两个字节会被误认为只有一个包含两个字节的字符。因为 UTF-16 需要这 2 个字节。

这就是我的阅读方式(t.txt 编码为 UTF-8):

0 投票
4 回答
7112 浏览

macos - OSX Emacs:解绑正确的 alt?

我正在使用emacsformacosx.com并希望阻止我的 Apple 键盘上的 Meta_R(右元或右选项键)成为 Emacs 元键。

原因是我希望能够继续使用正确的选项键作为字符修饰符,以便在用 emacs 编写时可以输入 UTF-8 字符。例如,我知道我可以做 aC-x 8 RET和 type em dash,但这比Alt_R -!

有没有办法将键码传递给global-unset-key? 还是我忽略的其他东西?

我应该清楚我仍然希望能够使用 Meta_L 绑定:)

0 投票
1 回答
3926 浏览

extjs - Extjs4中的特殊字符?

如何在 Extjs4 中获得像 ČĆŠĐŽ 这样的特殊字符。我尝试添加 meta utf-8...,也尝试使用 !DOCTYPE html5 和 XHTML 1.0 Transitional。sencha 网页上的首选 index.html 是:

0 投票
2 回答
551 浏览

java - 如何在 Java 中获取字节为 UTF-8Y

我正在使用 sax 解析器来解析编码为 utf-8y 的 xml 文件。如何在 sax 解析器或输入源中指定它?我总是得到一个解析异常

0 投票
15 回答
158591 浏览

windows - 哪种编码可以在 Mac 和 Windows 上使用 Excel 正确打开 CSV 文件?

我们有一个 Web 应用程序,可以导出包含 UTF-8 外来字符的 CSV 文件,没有 BOM。Windows 和 Mac 用户在 Excel 中都会得到乱码。我尝试使用 BOM 转换为 UTF-8;Excel/Win 没问题,Excel/Mac 显示乱码。我正在使用 Excel 2003/Win、Excel 2011/Mac。这是我尝试过的所有编码:

最好的一个是带有 BOM 的 UTF-16LE,但 CSV 不被识别。字段分隔符是逗号,但分号不会改变事情。

是否有任何编码适用于这两个世界?

0 投票
1 回答
57101 浏览

c++ - C++11 中字符串文字的 Unicode 编码

在一个相关问题之后,我想问一下 C++11 中新的字符和字符串文字类型。看起来我们现在有四种字符和五种字符串文字。字符类型:

和字符串文字:

问题是://\x字符引用是否可以与所有字符串类型自由组合?是否所有的字符串类型都是固定宽度的,即数组包含的元素与文字中出现的元素数量一样多,或者/ /引用被扩展为可变数量的字节?和字符串是否具有编码语义,例如,我可以说非 BMP 代码点被编码为两个单元的 UTF16 序列吗?同样对于? 在(1)中,我可以用 写单独的代理吗?最后,是否有任何字符串函数编码感知(即它们是字符感知并且可以检测无效字节序列)?\u\U\x\u\Uu""u8""char16_t x[] = u"\U0010FFFF"u8\u

这是一个开放式问题,但我想尽可能完整地了解新 C++11 的新 UTF 编码和类型工具。

0 投票
2 回答
22363 浏览

java - 汉字的UTF编码Java

我通过轴网络服务的对象接收字符串。因为我没有得到我期望的字符串,所以我通过将字符串转换为字节进行了检查,我得到了十六进制的 C3A4C2 BDC2A0 C3A5C2 A5C2BD C3A5C2 90C297,当我期待 E4BDA0 E5A5BD E59097 这实际上是 UTF- 8.

有什么想法可能导致你变成 C3A4C2 BDC2A0 C3A5C2 A5C2BD C3A5C2 90C297 我做了一个谷歌搜索,但我得到的只是一个描述python中发生的问题的中文网站。任何见解都会很棒,谢谢!

0 投票
6 回答
2190 浏览

unicode - 什么是最好的 UTF

我真的对 Unicode 中的 UTF 感到困惑。

有 UTF-8、UTF-16 和 UTF-32。

我的问题是:

  1. 支持所有 Unicode 块的 UTF 是什么?

  2. 什么是最好的 UTF(性能、大小等),为什么?

  3. 这三个 UTF 有什么不同?

  4. 什么是字节序和字节顺序标记(BOM)?

谢谢

0 投票
3 回答
66780 浏览

php - 如何在 mysql 或 php 中将 'u00e9' 转换为 utf8 字符?

我对正在导入 mysql 的一些杂乱数据进行了一些数据清理。

数据包含“伪”unicode 字符,它们实际上以“u00e9”等形式嵌入到字符串中。

所以一个字段可能是.. 'Jalostotitlu00e1n' 我需要去掉那个笨拙的 'u00e1n' 并用相应的 utf 字符替换它

我可以在任一 mysql 中执行此操作,可能使用子字符串和 CHR,但我通过 PHP 预处理数据,所以我也可以在那里执行此操作。

我已经知道如何配置 mysql 和 php 来处理 utf 数据。问题实际上只是在我正在导入的源数据中。

谢谢

0 投票
1 回答
10489 浏览

oracle10g - oracle 中的 utf-8 到 utf-16 的转换

我实际上以 UTF-8 格式将资源存储在 DB 中。但是当我现在想将它们全部转换为 UTF-16 时。由于德语有一些像 1/4 这样的字符。现在我想避免这些。我已经尝试遵循该语句,但在结果字符串中得到了一些框......

有没有其他方法?

表示我的数据库字符集是 WE8MSWIN1252 而我的国家字符集是 AL32UTF16。

当我使用该DUMP函数查看实际存储在表中的数据时,输出如下:

Typ=1 Len=54 CharacterSet=WE8MSWIN1252: 4d,c3,b6,63,68,74,65,6e,20,53,69,65,20,64,69,65,73,65,20,5a, 65,69,6c,65,20,77,69‌​,72,6b,6c,69,63,68,20,65,6e,64,67,c3,bc,6c,74,69,67,20 ,6c,c3,b6,73,63,68,65,6e,3f​, Möchten Sie diese Zeile wirklich endgültig löschen?