问题标签 [utf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 需要帮助了解 UTF 编码
你好,我注意到当我使用 UTF-8 编码(无 BOM)保存文本文件时,我能够使用 C# 上的 UTF-16 编码完美地读取它。现在这让我有点困惑,因为 UTF-8 只使用 8 位,对吧?utf-16 每个字符占用 16 位。
现在想象一下,我在这个文件中将字符串“ab”写成 UTF-8,然后有一个字节用于字母“a”,另一个字节用于“b”。
好的,但是当使用 UTF-16 字符集时,如何读取这个 UTF-8 文件呢?在我看来,在读取文件时,“ab”的两个字节会被误认为只有一个包含两个字节的字符。因为 UTF-16 需要这 2 个字节。
这就是我的阅读方式(t.txt 编码为 UTF-8):
macos - OSX Emacs:解绑正确的 alt?
我正在使用emacsformacosx.com并希望阻止我的 Apple 键盘上的 Meta_R(右元或右选项键)成为 Emacs 元键。
原因是我希望能够继续使用正确的选项键作为字符修饰符,以便在用 emacs 编写时可以输入 UTF-8 字符。例如,我知道我可以做 aC-x 8 RET
和 type em dash
,但这比Alt_R -
!
有没有办法将键码传递给global-unset-key
? 还是我忽略的其他东西?
我应该清楚我仍然希望能够使用 Meta_L 绑定:)
extjs - Extjs4中的特殊字符?
如何在 Extjs4 中获得像 ČĆŠĐŽ 这样的特殊字符。我尝试添加 meta utf-8...,也尝试使用 !DOCTYPE html5 和 XHTML 1.0 Transitional。sencha 网页上的首选 index.html 是:
java - 如何在 Java 中获取字节为 UTF-8Y
我正在使用 sax 解析器来解析编码为 utf-8y 的 xml 文件。如何在 sax 解析器或输入源中指定它?我总是得到一个解析异常
windows - 哪种编码可以在 Mac 和 Windows 上使用 Excel 正确打开 CSV 文件?
我们有一个 Web 应用程序,可以导出包含 UTF-8 外来字符的 CSV 文件,没有 BOM。Windows 和 Mac 用户在 Excel 中都会得到乱码。我尝试使用 BOM 转换为 UTF-8;Excel/Win 没问题,Excel/Mac 显示乱码。我正在使用 Excel 2003/Win、Excel 2011/Mac。这是我尝试过的所有编码:
最好的一个是带有 BOM 的 UTF-16LE,但 CSV 不被识别。字段分隔符是逗号,但分号不会改变事情。
是否有任何编码适用于这两个世界?
c++ - C++11 中字符串文字的 Unicode 编码
在一个相关问题之后,我想问一下 C++11 中新的字符和字符串文字类型。看起来我们现在有四种字符和五种字符串文字。字符类型:
和字符串文字:
问题是://\x
字符引用是否可以与所有字符串类型自由组合?是否所有的字符串类型都是固定宽度的,即数组包含的元素与文字中出现的元素数量一样多,或者/ /引用被扩展为可变数量的字节?和字符串是否具有编码语义,例如,我可以说非 BMP 代码点被编码为两个单元的 UTF16 序列吗?同样对于? 在(1)中,我可以用 写单独的代理吗?最后,是否有任何字符串函数编码感知(即它们是字符感知并且可以检测无效字节序列)?\u
\U
\x
\u
\U
u""
u8""
char16_t x[] = u"\U0010FFFF"
u8
\u
这是一个开放式问题,但我想尽可能完整地了解新 C++11 的新 UTF 编码和类型工具。
java - 汉字的UTF编码Java
我通过轴网络服务的对象接收字符串。因为我没有得到我期望的字符串,所以我通过将字符串转换为字节进行了检查,我得到了十六进制的 C3A4C2 BDC2A0 C3A5C2 A5C2BD C3A5C2 90C297,当我期待 E4BDA0 E5A5BD E59097 这实际上是 UTF- 8.
有什么想法可能导致你变成 C3A4C2 BDC2A0 C3A5C2 A5C2BD C3A5C2 90C297 我做了一个谷歌搜索,但我得到的只是一个描述python中发生的问题的中文网站。任何见解都会很棒,谢谢!
unicode - 什么是最好的 UTF
我真的对 Unicode 中的 UTF 感到困惑。
有 UTF-8、UTF-16 和 UTF-32。
我的问题是:
支持所有 Unicode 块的 UTF 是什么?
什么是最好的 UTF(性能、大小等),为什么?
这三个 UTF 有什么不同?
什么是字节序和字节顺序标记(BOM)?
谢谢
php - 如何在 mysql 或 php 中将 'u00e9' 转换为 utf8 字符?
我对正在导入 mysql 的一些杂乱数据进行了一些数据清理。
数据包含“伪”unicode 字符,它们实际上以“u00e9”等形式嵌入到字符串中。
所以一个字段可能是.. 'Jalostotitlu00e1n' 我需要去掉那个笨拙的 'u00e1n' 并用相应的 utf 字符替换它
我可以在任一 mysql 中执行此操作,可能使用子字符串和 CHR,但我通过 PHP 预处理数据,所以我也可以在那里执行此操作。
我已经知道如何配置 mysql 和 php 来处理 utf 数据。问题实际上只是在我正在导入的源数据中。
谢谢
oracle10g - oracle 中的 utf-8 到 utf-16 的转换
我实际上以 UTF-8 格式将资源存储在 DB 中。但是当我现在想将它们全部转换为 UTF-16 时。由于德语有一些像 1/4 这样的字符。现在我想避免这些。我已经尝试遵循该语句,但在结果字符串中得到了一些框......
有没有其他方法?
表示我的数据库字符集是 WE8MSWIN1252 而我的国家字符集是 AL32UTF16。
当我使用该DUMP
函数查看实际存储在表中的数据时,输出如下:
Typ=1 Len=54 CharacterSet=WE8MSWIN1252: 4d,c3,b6,63,68,74,65,6e,20,53,69,65,20,64,69,65,73,65,20,5a, 65,69,6c,65,20,77,69,72,6b,6c,69,63,68,20,65,6e,64,67,c3,bc,6c,74,69,67,20 ,6c,c3,b6,73,63,68,65,6e,3f, Möchten Sie diese Zeile wirklich endgültig löschen?