问题标签 [utf-8]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
25373 浏览

php - RSS 提要中的 utf-8 和 htmlentities

我正在用 PHP 编写一些 RSS 提要并遇到字符编码问题。我应该在 htmlentities() 编码之前还是之后使用 utf8_encode()?例如,我在描述元素中同时包含 & 和中文字符,我不确定哪些是正确的:

为什么?

0 投票
3 回答
35624 浏览

c - Light C Unicode 库

我正在寻找一个小型 C 库来处理 utf8 字符串。

具体来说,基于 unicode 分隔符的拆分用于词干算法。

相关帖子建议:

ICU http://www.icu-project.org/(我发现它对于我在嵌入式设备上的用途来说太笨重了)

UTF8-CPP:http ://utfcpp.sourceforge.net/ (非常好,但 C++ 不是 C)

有没有人找到任何独立于平台的小型代码库库来处理 unicode 字符串(不需要进行归化)。

0 投票
3 回答
8953 浏览

perl - 如何确定字符串的字符集?

我有几个不同语言的文件。我以为它们都是 UTF-8 编码的,但现在我不太确定。有些角色看起来不错,有些则不然。有没有办法可以分解字符串并尝试识别字符集?也许在空白处分割然后识别每个单词?最后,有没有一种简单的方法可以将字符从一组转换为 UTF-8?

0 投票
5 回答
3998 浏览

asp.net - 如果我将 ANSI 编码文件转换为 UTF-8,会出现什么问题?

我有一个现有的 ASP.NET 2.0 网站,存储在 Team Foundation Server 2005 中。一些页面/控件被编码为 ANSI(根据 Notepad++),并且 Content-Type 标头设置为:

我想将所有页面更改为 UTF-8,因此 Content-Type 标头更改为:

除了更改元元素之外,我认为我还需要更改所有文件的编码。我可以在 Notepad++ 中做到这一点,但如果有人有更快的方法,请提及。

在 TFS 中进行合并/比较时,我可能会遇到哪些问题?

0 投票
5 回答
34842 浏览

java - HTTP headers encoding/decoding in Java

A custom HTTP header is being passed to a Servlet application for authentication purposes. The header value must be able to contain accents and other non-ASCII characters, so must be in a certain encoding (ideally UTF-8).

I am provided with this piece of Java code by the developers who control the authentication environment:

But this code doesn't look right to me: it presupposes the encoding of the header value, when it seemed to me that there was a proper way of specifying an encoding for header values (from MIME I believe).

Here is my question: what is the right way (tm) of dealing with custom header values that need to support a UTF-8 encoding:

  • on the wire (how the header looks like over the wire)
  • from the decoding point of view (how to decode it using the Java Servlet API, and can we assume that request.getHeader() already properly does the decoding)

Here is an environment independent code sample to treat headers as UTF-8 in case you can't change your service:

0 投票
3 回答
1895 浏览

configuration - web.xml 中的错误页面指令无法正确显示 UTF8

我有一个包含以下条目的应用程序 web.xml:

但是,当显示此页面时,日文字符会出现乱码。

如果直接显示或什至通过 servlet 过滤器显示,相同的页面 (p_notfound.jsp) 会正确显示。

我尝试将过滤器添加到:

但这无济于事。有任何想法吗?

0 投票
3 回答
3240 浏览

coldfusion - 如何将文件保存为 UTF-8 格式

我们需要在 ColdFusion 中发送包含英镑(货币)符号的电子邮件。在发送电子邮件之前,我们将数据转储到 html 文件中以供预览。

  1. 如何在 ColdFusion 中使用 utf-8 编码发送电子邮件
  2. 如何在 ColdFusion 中使用 utf-8 编码保存文件
0 投票
3 回答
13595 浏览

ruby-on-rails - 如何使用 Ruby 处理 UTF-8 电子邮件标头(如主题:)?

我是一封电子邮件 n00b,但我正在开发一个发送带有 Unicode 字符的 HTML 电子邮件的应用程序(正如我的朋友所说的“享受编码地狱”)。

Subject:头来自用户输入,因此可能包含 Unicode 字符。一些邮件客户端(如 GMail 和 Outlook 2007)对此没有问题,但从我的阅读来看,正确的方法似乎是对标题使用MIME Encoded-Word 编码

我找不到 Ruby 库来执行此操作。有吗?

此外,是否要添加一个标头,告诉邮件客户端在显示消息时使用 UTF-8?我们正在发送多部分电子邮件,所以我们Content-Typemultipart/mixed。尤其是 Apple Mail.app 没有使用正确的编码,即使它在各个部分中指定为 UTF-8。

0 投票
7 回答
18354 浏览

mysql - Rails 上的 UTF8 MySQL 问题 - utf8_general_ci 的编码问题

我有一个在 MySQL 5.0.32-Debian 上运行的暂存 Rails 站点。

在这个特定的站点上,我所有的表都使用utf8 / utf8_general_ci编码。

在该数据库中,我有一些看起来像这样的数据:

这是我遇到的问题

在登台(在 debian 盒子上运行 db 和 Rails 站点)时,从 Rails 显示时,符号的字符会正确显示。例如,人民币在我的浏览器中显示为元,而不是数据库中显示的 å...ƒ。

当我将该数据下载到本地 OS X 开发机器并在本地运行 db 和 Rails 时,我会在浏览器上看到来自 DB (å...ƒ) 内部的表示,而不是我在登台时看到的字符 元。

调试我已经完成

我已确保 Content-Type 的所有标头都以 utf8 形式从每个网络服务器(本地、暂存)返回。

我的本地 mysql 服务器和登台服务器都设置为使用 utf8 作为默认字符集。在我拨打任何电话之前,我正在使用“set names 'utf8'”。

我什至可以从我的 OS X Rails 主机连接到我的暂存数据库,我仍然可以看到代表人民币的字符 å...ƒ。那我猜,也许我的mysql本地客户端有问题,但我不知道是什么问题。

也许这可能会提供线索

更令人困惑的是,如果我将字符元粘贴到本地计算机上的数据库中,我会在网络浏览器中看到它很好。--- 然而,如果我将相同的字符粘贴到我的暂存数据库中,我会得到一个 ? 在我的暂存 Rails 站点的页面上标记它的位置。

此外,如果我在查询之前使用“set names 'latin1'”,那么在我的 OS X rails 机器上本地,所有字符都会正确返回。我之前确实将这些表设置为 latin1 - 这可能是问题吗?

有人请在这里帮助我,我要疯了,试图找出问题所在!

0 投票
3 回答
12413 浏览

mysql - MySQL 5 的 UTF8 问题

我正在将我的 WordPress 博客和 phpBB 论坛迁移到新的托管服务器中。我正在使用 phpMyAdmin 从上一个站点的数据库中导入 SQL 脚本。

当我用 Kate 打开 .sql 脚本时,它说它使用 UTF8 作为编码。当我在新服务器中导入 sql 时,我在 phpMyAdmin 中有选择编码的选项,其中默认选择 utf8。

不过,当我完成导入数据库时​​,我直接在 phpMyAdmin 中阅读帖子文本,并看到诸如“é”、“ñ”等字符,这些字符尚未被“解释”并被替换为奇怪的字符。

我可以看到我的 WordPress 安装也无法正常工作。显然这个编码有问题,但我认为问题出在 MySQL 数据库或 phpMyAdmin 而不是 WordPress。

MySQL 的版本实际上是相同的,即 MySQL 5,但版本不同。还有,在迁移论坛数据库的时候没有问题,所以这个就更奇怪了……

我不知道如何解决这个问题......欢迎任何想法。