问题标签 [utf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
14173 浏览

unicode - UTF-8、UTF-16 和 UTF-32 可以存储的字符数是否不同?

好的。我知道这看起来像是典型的“他为什么不直接谷歌搜索或访问www.unicode.org并查找它?” 问题,但是对于这样一个简单的问题,在检查了两个来源后,我仍然无法找到答案。

我很确定所有这三种编码系统都支持所有的 Unicode 字符,但在我在演示文稿中提出该声明之前,我需要确认它。

额外问题:这些编码在可以扩展支持的字符数上是否不同?

0 投票
5 回答
1554 浏览

c++ - C++ 代码中的 UTF 用法

UTF 和 UCS 有什么区别。

在 C++ 字符串中表示非欧洲字符集(使用 UTF)的最佳方法是什么。我想知道您对以下方面的建议:

  • 代码内部的表示
    • 用于运行时的字符串操作
    • 用于将字符串用于显示目的。
  • 最佳存储表示(在文件中)
  • 最佳有线传输格式(在可能位于不同架构且具有不同标准语言环境的应用程序之间传输)
0 投票
1 回答
340 浏览

python - 如何实现串行设备使用的自定义代码页,以便可以在 Python 中将文本转换为它?

我有一个滚动的 LED 标志,可以从自定义代码页获取 ASCII 或(使用某些特定代码)字符的消息。

例如,欧元符号应发送为

并且 ä 是

(您可以在文档中找到完整的代码页)

我的问题是,实现此自定义代码页并拥有可以将 UTF 字符串转换为我的自定义代码页的编解码器的最 Pythonic 方式是什么?

0 投票
4 回答
1865 浏览

c++ - 如何在 Windows 的 wchar_t 和 GCC/Linux 之间进行转换(不一定以编程方式)?

假设我有这个 Windows wchar_t 字符串:

并希望将其(不一定以编程方式;这将是一次性的)转换为 GCC/Linux wchar_t 格式,即 UTF-32 AFAIK。我该怎么做?(一般的解释会很好,但基于这个具体案例的例子也会有帮助)

请不要将我引导到字符转换站点。我想从 L"\x(something)" 形式转换,而不是 "end character" 形式。

0 投票
3 回答
590 浏览

php - 如何在 PHP 中检查字符串在 UTF8 中是否只有国际字母和空格?

在 Python 中,我可以将其转换为 Unicode 并执行 '(?u)^[\w ]+$' 正则表达式搜索,但 PHP 似乎不理解国际 \w,或者是吗?

0 投票
4 回答
19782 浏览

java - jsp utf编码

我很难弄清楚如何处理这个问题:

我正在为一所意大利大学开发一个网络工具,我必须显示带有重音的单词(例如 è、ù、...);有时我从 PostgreSql 表(UTF8 编码)中得到这些词,但大多数情况下我必须从文件中读取长段落。这些文件被编码为 utf-8 xml,并在 Smultron 或任何 utf-8 编辑器中显示良好(它们是在 python 旧文件中使用实体è而不是“è”来解析创建的)。

我编写了一个 java 类,它从 xml 文件中提取相关段,它的工作原理如下:

String s = parseText(filename, position)

如果我将返回的字符串写入文件,一切看起来都很好;问题是,如果我这样做

out.write(s)

在 jsp 页面中,我得到了奇怪的字符。顺便说一句,我用

String s = getWordFromPostgresql(...)

out.write(s)

在同一个jsp中,它显示OK。

有什么提示吗?

谢谢尼古拉


@克罗森沃尔德

感谢您的回复,但是该指令已经在页面中,但它不起作用(实际上它“起作用”但仅适用于我从数据库中获取的字符串)。我认为从文件中读取有些东西,但我无法理解......它们在“java”中工作但不在“jsp”中(想不出更好的解释......)

这是从实际代码中提取的一个基本示例:从文件中读取的方法返回一个 Map,从 Mark(表示文本中位置的对象)到 String(包含文本):

这是在 .jsp 页面中(上面的帖子中引用了 utf 指令)

这是结果:

“Fu per√≤ cos√¨ in uso il Genere Enharmonico, che quelli quali vi si esercitavano”

如果我将相同的代码放在 java 类中,并用 System.out.println 替换 out.write,结果是这样的:

“Fu però così in uso il Genere Enharmonico, che quelli quali vi si esercitavano”


我一直在用十六进制编辑器做一些分析,这里是:

原始字符串:“fu però così”

ò 在 xml 文件中:C3 B2

ò 由 jsp 文件中的 out.write() 呈现:E2 88 9A E2 89 A4

ò 通过以下方式写入文件:

C3 B2

将每个字符的值打印为 int

0 投票
14 回答
262717 浏览

unicode - UTF-8、UTF-16 和 UTF-32

UTF-8、UTF-16 和 UTF-32 之间有什么区别?

我知道它们都将存储 Unicode,并且每个都使用不同数量的字节来表示一个字符。选择一个比另一个有优势吗?

0 投票
3 回答
2696 浏览

php - 字符编码似乎适用于 MAMP 服务器,但不适用于 WAMP 服务器

我一直在开发一个应该能够接受多种语言的标签和搜索查询的 Web 应用程序。这不是要求太多,是吗?

现在,在我的开发 MAMP 服务器上,一切都很好。我添加多语言标签,以我想要的任何语言搜索等。

另一方面,在生产 WAMP 服务器上,多语言字符会带来麻烦。甚至不是一直,只是某些时候,或者某些角色,我还不确定。

发生的情况是他们获得了额外的字符,然后他们的 URL 解码不正确。

两种环境都使用 PHP 5、MySQL 和 Apache。

我的猜测是我在某个地方设置错误。

有任何想法吗?

  • 更新:我现在确定是特定的字母(例如希伯来语 ל,מ א)

  • 更新:易于重现:总是相同的字母得到错误的编码。

  • 内容类型是text/html; charset=utf-8

此外,我进一步指出:
我使用搜索字符串:ליבני
在结果页面上,我看到:

  • 在地址栏中,搜索短语是正确的,正确的 url 编码。
  • 在 HTML 本身中,我看到字符串“ �_יבני ”,即“ %D7_%D7%99%D7%91%D7%A0%D7%99”,这意味着ל已被编码为“ %D7_”,而不是%D7%9C应有的“”。

我真的不知道该往哪里走。
有任何想法吗?任何人?

0 投票
2 回答
322708 浏览

unicode - Unicode、UTF、ASCII、ANSI 格式差异

Unicode, UTF8, UTF7, UTF16, UTF32, ASCII, 和ANSI编码有什么区别?

这些对程序员有什么帮助?

0 投票
4 回答
1474 浏览

unicode - 我需要补充飞机吗?

我认为这个问题很简单,在基本平面之后我是否需要 Unicode 中的所有其他东西?包括什么样的东西,真的需要吗?(以及出于什么目的?)

谢谢。