问题标签 [utf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
unicode - UTF-8、UTF-16 和 UTF-32 可以存储的字符数是否不同?
好的。我知道这看起来像是典型的“他为什么不直接谷歌搜索或访问www.unicode.org并查找它?” 问题,但是对于这样一个简单的问题,在检查了两个来源后,我仍然无法找到答案。
我很确定所有这三种编码系统都支持所有的 Unicode 字符,但在我在演示文稿中提出该声明之前,我需要确认它。
额外问题:这些编码在可以扩展支持的字符数上是否不同?
c++ - C++ 代码中的 UTF 用法
UTF 和 UCS 有什么区别。
在 C++ 字符串中表示非欧洲字符集(使用 UTF)的最佳方法是什么。我想知道您对以下方面的建议:
- 代码内部的表示
- 用于运行时的字符串操作
- 用于将字符串用于显示目的。
- 最佳存储表示(即在文件中)
- 最佳有线传输格式(在可能位于不同架构且具有不同标准语言环境的应用程序之间传输)
python - 如何实现串行设备使用的自定义代码页,以便可以在 Python 中将文本转换为它?
我有一个滚动的 LED 标志,可以从自定义代码页获取 ASCII 或(使用某些特定代码)字符的消息。
例如,欧元符号应发送为
并且 ä 是
(您可以在文档中找到完整的代码页)
我的问题是,实现此自定义代码页并拥有可以将 UTF 字符串转换为我的自定义代码页的编解码器的最 Pythonic 方式是什么?
c++ - 如何在 Windows 的 wchar_t 和 GCC/Linux 之间进行转换(不一定以编程方式)?
假设我有这个 Windows wchar_t 字符串:
和
并希望将其(不一定以编程方式;这将是一次性的)转换为 GCC/Linux wchar_t 格式,即 UTF-32 AFAIK。我该怎么做?(一般的解释会很好,但基于这个具体案例的例子也会有帮助)
请不要将我引导到字符转换站点。我想从 L"\x(something)" 形式转换,而不是 "end character" 形式。
php - 如何在 PHP 中检查字符串在 UTF8 中是否只有国际字母和空格?
在 Python 中,我可以将其转换为 Unicode 并执行 '(?u)^[\w ]+$' 正则表达式搜索,但 PHP 似乎不理解国际 \w,或者是吗?
java - jsp utf编码
我很难弄清楚如何处理这个问题:
我正在为一所意大利大学开发一个网络工具,我必须显示带有重音的单词(例如 è、ù、...);有时我从 PostgreSql 表(UTF8 编码)中得到这些词,但大多数情况下我必须从文件中读取长段落。这些文件被编码为 utf-8 xml,并在 Smultron 或任何 utf-8 编辑器中显示良好(它们是在 python 旧文件中使用实体è
而不是“è”来解析创建的)。
我编写了一个 java 类,它从 xml 文件中提取相关段,它的工作原理如下:
String s = parseText(filename, position)
如果我将返回的字符串写入文件,一切看起来都很好;问题是,如果我这样做
out.write(s)
在 jsp 页面中,我得到了奇怪的字符。顺便说一句,我用
String s = getWordFromPostgresql(...)
out.write(s)
在同一个jsp中,它显示OK。
有什么提示吗?
谢谢尼古拉
感谢您的回复,但是该指令已经在页面中,但它不起作用(实际上它“起作用”但仅适用于我从数据库中获取的字符串)。我认为从文件中读取有些东西,但我无法理解......它们在“java”中工作但不在“jsp”中(想不出更好的解释......)
这是从实际代码中提取的一个基本示例:从文件中读取的方法返回一个 Map,从 Mark(表示文本中位置的对象)到 String(包含文本):
这是在 .jsp 页面中(上面的帖子中引用了 utf 指令)
这是结果:
“Fu per√≤ cos√¨ in uso il Genere Enharmonico, che quelli quali vi si esercitavano”
如果我将相同的代码放在 java 类中,并用 System.out.println 替换 out.write,结果是这样的:
“Fu però così in uso il Genere Enharmonico, che quelli quali vi si esercitavano”
我一直在用十六进制编辑器做一些分析,这里是:
原始字符串:“fu però così”
ò 在 xml 文件中:C3 B2
ò 由 jsp 文件中的 out.write() 呈现:E2 88 9A E2 89 A4
ò 通过以下方式写入文件:
C3 B2
将每个字符的值打印为 int
unicode - UTF-8、UTF-16 和 UTF-32
UTF-8、UTF-16 和 UTF-32 之间有什么区别?
我知道它们都将存储 Unicode,并且每个都使用不同数量的字节来表示一个字符。选择一个比另一个有优势吗?
php - 字符编码似乎适用于 MAMP 服务器,但不适用于 WAMP 服务器
我一直在开发一个应该能够接受多种语言的标签和搜索查询的 Web 应用程序。这不是要求太多,是吗?
现在,在我的开发 MAMP 服务器上,一切都很好。我添加多语言标签,以我想要的任何语言搜索等。
另一方面,在生产 WAMP 服务器上,多语言字符会带来麻烦。甚至不是一直,只是某些时候,或者某些角色,我还不确定。
发生的情况是他们获得了额外的字符,然后他们的 URL 解码不正确。
两种环境都使用 PHP 5、MySQL 和 Apache。
我的猜测是我在某个地方设置错误。
有任何想法吗?
更新:我现在确定是特定的字母(例如希伯来语 ל,מ א)
更新:易于重现:总是相同的字母得到错误的编码。
- 内容类型是
text/html; charset=utf-8
此外,我进一步指出:
我使用搜索字符串:ליבני
在结果页面上,我看到:
- 在地址栏中,搜索短语是正确的,正确的 url 编码。
- 在 HTML 本身中,我看到字符串“ �_יבני ”,即“
%D7_%D7%99%D7%91%D7%A0%D7%99
”,这意味着ל已被编码为“%D7_
”,而不是%D7%9C
应有的“”。
我真的不知道该往哪里走。
有任何想法吗?任何人?
unicode - Unicode、UTF、ASCII、ANSI 格式差异
Unicode
, UTF8
, UTF7
, UTF16
, UTF32
, ASCII
, 和ANSI
编码有什么区别?
这些对程序员有什么帮助?
unicode - 我需要补充飞机吗?
我认为这个问题很简单,在基本平面之后我是否需要 Unicode 中的所有其他东西?包括什么样的东西,真的需要吗?(以及出于什么目的?)
谢谢。