问题标签 [character-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
2852 浏览

java - 为什么调用 .getBytes() 时字符串“¿”会被翻译成“¿”

当使用写出字符串“¿”时

¿ 是写而不只是 ¿。

为什么?我们如何解决它?

0 投票
5 回答
3982 浏览

java - 为什么即使使用 UTF-8,在 Windows 和 Linux 中 ¿ 的显示也会不同?

为什么在 Linux 和 Windows 中显示以下内容不同?

在 Windows 中:

¿

在 Linux 中:

一种

0 投票
1 回答
1456 浏览

html - MS Office 超链接更改代码页?

当您将以下 URL 粘贴到 IE 中时:http ://technet.microsoft.com/en-us/sysinternals/bb897434.aspx,页面右侧的链接清楚地显示“下载 Zoomit (77 KB)”。如果将链接粘贴到 Office 文档(Word、Excel、PowerPoint - 使用 Office 2003 测试)中,并从文档中激活链接,则相同的文本会拾取几个 A-circumflex 符号。这是因为源 HTML 包含“ ” 被翻译成 Unicode 00A0 的实体(不间断空格)。在 UTF-8 中,这表示为 X'C2A0',然后 X'C2' 显示为 A-circumflex。我不完全理解代码页是如何像这样混在一起的,但我真的很想找到一个 HTML 元 http-equiv 字符集值,它会导致我的包含 nbsp-entity 的页面即使在从办公文件。

0 投票
7 回答
4343 浏览

delphi - 有没有办法在 Delphi 2009 中查看一个字符是使用 1 个字节还是 2 个字节?

Delphi 2009 已将其字符串类型更改为使用 2 个字节来表示一个字符,这允许支持 unicode 字符集。现在当你得到 sizeof(string) 你得到 length(String) * sizeof(char) 。Sizeof(char) 当前为 2。

我感兴趣的是是否有人知道一种方法,它可以逐个字符地找出它是否适合单个字节,例如找出一个char是ascii还是Unicode。

我主要想知道的是,在我的字符串进入数据库(oracle、Documentum)之前,该字符串将使用多少字节。

我们需要能够预先实施限制,理想情况下(因为我们有一个庞大的安装基础),而无需更改数据库。如果字符串字段允许 12 个字节,则在 delphi 2009 中,长度为 7 的字符串将始终显示为使用 14 个字节,即使一旦它到达数据库,它只会使用 7(如果是 ascii)或 14(如果是双字节),或者介于两者之间的某个位置混合物。

0 投票
2 回答
15315 浏览

encoding - 如何在经典 ASP 中使用 XMLHttp 对象为 POST 设置字符集?

我必须在经典 ASP 中使用 XMLHttp 对象,以便通过 HTTP 从服务器到服务器将一些数据发送到另一台服务器:

我被告知(消费服务器的维护者),根据我是使用 Windows Server 2000 (IIS 5) 还是 Windows Server 2003 (IIS 6) 中的代码,他会得到Latin-1 (Windows 2000 Server)或UTF-8 (Windows Server 2003) 编码的数据。

我没有找到任何属性或方法来设置我必须发送的数据字符集。它是否依赖于某些 Windows 配置或脚本 (asp) 设置?

0 投票
4 回答
4518 浏览

mysql - 我是否应该将带有 latin1_swedish_ci 排序规则的 MySQL 数据库迁移到 utf-8,如果是,如何迁移?

我的 Rails 应用程序使用的 MySQL 数据库当前具有默认排序规则latin1_swedish_ci. utf8_general_ci由于 Rails 应用程序(包括我的)的默认字符集是 UTF-8,因此在数据库中使用排序规则对我来说似乎是明智的。

我的想法正确吗?

假设是,将排序规则和数据库中的所有数据迁移到新编码的最佳方法是什么?

0 投票
3 回答
2151 浏览

perl - 如何检测格式错误的 UTF 字符

我想在使用 SQL*Loader 加载数据时使用 Perl 脚本检测并用空格替换格式错误的 UTF-8 字符。我怎样才能做到这一点?

0 投票
4 回答
1328 浏览

url - URL 重写 - 国际信件

我应该如何格式化带有特殊/国际字符的 URL?

目前,我尝试使 URL “看起来不错”,以便:

转换为:

我知道可以转换一些国际字母(ü = ue,æ = ae,å = aa),可以删除一些字符。我一般会尝试使 URL 看起来“不错”,但这很愚蠢吗?

但是,与我们的西方 ASCII 格式无关的中文、日文、阿拉伯字母怎么办?

我真的不喜欢用十六进制代码重写 URL 的想法,所以现在如果 url 包含太多“不可转换”字符,我只使用我的内部唯一 ID。

0 投票
1 回答
143 浏览

character-encoding - “lew”在“lew2”或“lew4”中代表什么?

我看到术语 'lew2' 和 'lew4' 用于参考某些文件中的字符大小。我知道该数字表示用于存储某些类型的字符(可能是宽字符?)的字节数,但我不确定“lew”部分代表什么。我最好的猜测是“宽的长度”。任何人都可以启发我吗?

0 投票
3 回答
13551 浏览

python - 当字符串中有非ASCII字符时,如何将C字符串(char数组)转换为Python字符串?

我在 C 程序中嵌入了一个 Python 解释器。假设 C 程序从一个文件中读取一些字节到一个 char 数组中,并且(不知何故)得知这些字节表示具有某种编码(例如,ISO 8859-1、Windows-1252 或 UTF-8)的文本。如何将此 char 数组的内容解码为 Python 字符串?

Python 字符串通常应该是类型unicode——例如,0x93Windows-1252 编码输入中的 a 变成u'\u0201c'.

我尝试使用PyString_Decode,但是当字符串中有非 ASCII 字符时它总是失败。这是一个失败的例子:

错误消息是UnicodeEncodeError: 'ascii' codec can't encode character u'\u201c' in position 0: ordinal not in range(128),这表明ascii即使我们windows_1252在对 的调用中指定了编码也被使用PyString_Decode

以下代码通过使用PyString_FromString创建未解码字节的 Python 字符串,然后调用其decode方法来解决此问题: