问题标签 [character-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
260 浏览

encoding - 字符编码的最佳资源

我正在寻找一份文档(未打印),该文档详细但仍然简单地解释了字符编码的主题。

0 投票
19 回答
744032 浏览

java - 设置默认 Java 字符编码

如何以编程方式正确设置 JVM (1.5.x) 使用的默认字符编码?

我读过这-Dfile.encoding=whatever曾经是旧 JVM 的方式。由于我不会进入的原因,我没有那种奢侈。

我试过了:

并且该属性已设置,但似乎不会导致getBytes下面的最终调用使用 UTF8:

0 投票
5 回答
1582 浏览

coldfusion - 如何摆脱我的 RSS 提要中的奇怪字符?

我创建了一个 utf8 编码的 RSS 提要,它显示了从数据库中提取的新闻数据。我已将数据库的所有方面都设置为 utf8,并将我放入数据库的文本保存为 utf8,方法是将其粘贴到记事本中并另存为 utf8。因此,当将 RSS 提要呈现给浏览器时,所有内容都应该以 utf8 编码,但是我仍然会收到奇怪的问号字符作为井号:(

这是我的 RSS 提要代码 (CFML):

有人有什么建议吗?我做了很多研究,但找不到任何答案:(

提前致谢,

克罗米斯

0 投票
4 回答
6072 浏览

.net - 字符编码问题 - PHP 输出,由 .NET 通过 HttpWebRequest 读取

我有一个 PHP 脚本(在 Linux 服务器上运行)输出服务器上某些文件的名称。它以简单的纯文本格式输出这些文件名。

此输出是使用 HttpWebRequest、HttpWebResponse 和 StreamReader 从 VB.NET 程序中读取的。

问题是一些正在输出的文件名包含......不寻常的字符。具体来说,“节”符号(§)。

如果我在 Web 浏览器中查看 PHP 脚本的输出,则该符号看起来很好。

但是,当我将 PHP 脚本的输出读入我的 .NET 程序时,符号显示不正确(它显示为通用“块”符号)。

我已经尝试了在读取响应流(来自 HttpWebResponse)时可以使用的所有不同字符编码选项。我尝试将流直接输出到文本文件(不好),在 TextBox 中显示(不好),即使直接在 Visual Studio 调试器中查看结果,字符也会显示为块而不是“节”符号。

我已经检查了十六进制编辑器中的输出(正如相关问题所建议的那样,“你如何解决字符编码问题。”

当我从 .NET 本身写出节符号 (§) 时,我看到的表示它的十六进制字节是“c2 a7”(如果它是 unicode 就有意义,对吧?需要两个字节?)。当我将 PHP 脚本的输出直接写入文件并使用十六进制编辑器检查时,符号显示为“ef bf bd”——三个字节而不是两个?

我不知道该怎么做——如果我需要指定其他字符编码,或者我遗漏了一些明显的东西。

下面是用于获取 PHP 脚本输出的代码(修改了 VB 样式的注释,以便它们在此站点上正确显示):

有任何想法吗?

  • 我是否使用了错误类型的 StreamReader?(我尝试在调用中传递字符编码以创建新的 StreamReader - 我已经尝试了 System.Text.Encoding 中的所有字符编码 - UTF-8、UTF-7、ASCII、UTF-32、Unicode、 ETC。)
  • 我应该使用不同的方法来读取 PHP 脚本的输出吗?
  • 输出文本时,我应该在 PHP 端做些什么不同的事情吗?

更新信息:

  • PHP 的输出通过调用专门编码为 UTF-8:utf8_encode($file);
  • 当我从 .NET 中写出符号时,我从 Windows 中的 Character Map 应用程序中复制并粘贴了该符号。我还直接从文件名(在 Windows 中)和此网页本身复制并粘贴了它 - 写出时都给出了相同的十六进制值(c2 a7)。
  • 是的,我说的“部分符号”是 U+00A7(Windows 上的 ALT+0167,根据字符映射表)。
  • 内容类型是通过header('Content-Type: text/html; charset=utf-8');PHP 脚本开头的右侧显式设置的。

更新:

我自己想出来了,但如果没有回答的人的帮助,我是做不到的。谢谢!

0 投票
3 回答
5755 浏览

c# - StreamReader 问题 - 未知文件编码 (western iso 88591)

从输入文件中读取数据时,我注意到 ¥ 符号没有被 StreamReader 读取。Mozilla Firefox 将输入文件类型显示为 Western (ISO-8859-1)。

在玩弄了编码参数后,我发现它成功地适用于以下值:

现在我计划使用“默认”设置,但是我不太确定这是否是正确的决定。现有代码没有使用任何编码,我担心我可能会破坏某些东西。

我对编码知之甚少(或者几乎一无所知)。我该怎么做?我决定使用 System.Text.Encoding.Default 安全吗?我应该要求用户以特定格式保存文件吗?

0 投票
2 回答
930 浏览

c# - 流文件和字符集问题

我编写了一些代码,将期刊文章的一些细节导出到名为Endnote的参考管理器

其格式是如下项目列表(作者):

不幸的是,我在某处遇到了一些编码问题,因为当尾注打开文件时,这就是上述作者的原因:

Schortge Frédérique

我疯狂地尝试使用我正在输出的编码和东西,但我不知所措,这是代码:

0 投票
3 回答
1765 浏览

vb6 - 在 VB6 运行时确定给定 LCID 的正确字符集的最佳方法是什么?

我在 VB6 应用程序中显示日语字符,系统区域设置为日本,非 Unicode 程序的语言为日语。对 GetACP() 的调用正确返回日语的 932。当我将日语字符串插入我的控件时,它们显示为“ƒAƒtƒŠƒJ‚Ì—‰¤”而不是“アフリカの女王”。如果我手动将 Font.Charset 设置为 128,那么它们会正确显示。

在 VB6 中确定给定 LCID 的正确字符集的最佳方法是什么?

0 投票
2 回答
3674 浏览

php - 如何正确使用 HTML Purifier?

我在我的 PHP 项目中使用HTML Purifier ,但无法让它与用户输入一起正常工作。

我让用户使用 WYSIWYG 编辑器(TinyMCE)输入 HTML,但每当用户输入 HTML 实体 (不间断空格)时,它都会作为这个奇怪的外来字符(Â)保存到数据库中。

但是,问题是,当我使用 WYSIWYG 编辑器编辑保存的条目时,它会正确显示为 . 它在显示时也能正常工作,只是在源代码中它显示为一个真实的空格,而不是不间断的空格字符。

此外,在 MySQL 数据库中,它显示为奇怪的外来字符。

我阅读了有关Unicode 和 HTML Purifier的文档,并将我的数据库和网页编码更改为 UTF-8,但我仍然遇到不破坏空格字符的问题。其他 HTML 实体,例如&lt;and &gt;,被保存为<and >,但为什么不&nbsp;呢?

0 投票
2 回答
475 浏览

django - Django 中的 Unicode 应用程序名

我住在挪威,当我制作 Django 应用程序时,我希望能够使用像“æøå”这样的字符来命名我的应用程序,这些字符在 unicode 中可以正常工作,但是当我尝试在应用程序名称或字段中使用这些字符时显示文本我得到一个错误。

更好的是,我想按英文约定命名我的应用程序,但对应用程序有类似“verbose_name”的名称,而不仅仅是模型。

那么是否可以为应用程序设置显示名称,而不仅仅是模型?以及如何在管理界面中使用 unicode 字符?

0 投票
2 回答
298 浏览

.net - 当我们将字节内容从 unicode 转换为 ansi 字符时如何删除 (?)

我需要将 unicode 字符转换为 ansi 字符

我使用这段代码。当我查看这个时,我发现了额外的?在第一部分添加字符

?FF EE 20 12