问题标签 [utf-8]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
4150 浏览

c++ - 在 C++ 中将 MBCS 流转换为 UTF-8,反之亦然

我正在使用 Visual C++ (VS2005) 并以多字节字符集 (MBCS) 编译项目。但是,程序需要通过 XMLRPC 与 webapp(utf-8 格式)进行通信。所以我在想也许我可以在内部使用 MBCS 并将字符串转换为 utf-8,然后再将它们发送到 xmlrpc 模块并在从 webapi 接收后将它们转换回 MBCS。

我想知道在 VC++ 中转换 MBCS 和 UTF-8 的最佳方式是什么?

谢谢大家。

0 投票
9 回答
12487 浏览

unicode - 如何识别 UTF-8 编码的字符串

识别字符串(是或)是否可能是 UTF-8 编码的最佳方法是什么?Win32 APIIsTextUnicode在这里没有多大帮助。此外,该字符串不会有 UTF-8 BOM,因此无法检查。而且,是的,我知道只有 ASCII 范围以上的字符才被编码为超过 1 个字节。

0 投票
4 回答
31708 浏览

unicode - 将 GB2312 转换为 UTF-8

我有一个文本文件,其中包含当前以 GB2312(简体中文)编码的本地化语言字符串,但我的所有其他语言文件都是 UTF-8。我发现使用此文件非常困难,因为我的文本编辑器都无法正常使用它并不断损坏它。是否有任何工具可以将其转换为 UTF-8,这样做有什么缺点吗?将其保留为 GB2312 并使用其他编辑器会更好(如果是,您能推荐一个)吗?

更新:我使用的是 Windows XP(英文安装)。

更新 #2:我尝试使用 Notepad++ 和 Notepad2 编辑 GB2312 文件,但两者都无法读取文件并损坏它们。

0 投票
2 回答
3674 浏览

php - 如何正确使用 HTML Purifier?

我在我的 PHP 项目中使用HTML Purifier ,但无法让它与用户输入一起正常工作。

我让用户使用 WYSIWYG 编辑器(TinyMCE)输入 HTML,但每当用户输入 HTML 实体 (不间断空格)时,它都会作为这个奇怪的外来字符(Â)保存到数据库中。

但是,问题是,当我使用 WYSIWYG 编辑器编辑保存的条目时,它会正确显示为 . 它在显示时也能正常工作,只是在源代码中它显示为一个真实的空格,而不是不间断的空格字符。

此外,在 MySQL 数据库中,它显示为奇怪的外来字符。

我阅读了有关Unicode 和 HTML Purifier的文档,并将我的数据库和网页编码更改为 UTF-8,但我仍然遇到不破坏空格字符的问题。其他 HTML 实体,例如&lt;and &gt;,被保存为<and >,但为什么不&nbsp;呢?

0 投票
3 回答
34271 浏览

php - PHP/MySQL 有编码问题

我在使用 PHP 编码时遇到问题。

我有一个使用 $.post 与我的 PHP 脚本交互的 JavaScript/jQuery HTML5 页面。然而,PHP 面临一个奇怪的问题,可能与编码有关。

当我写

我希望 PHP 输出&iacute;. 但是,相反,它输出&Atilde;&shy; 一开始,我认为我在编码方面犯了一些错误,但是

正在输出“失败”,其中

htmlentities($search, null, "utf-8")按预期工作。

我想让 PHP 与 MySQL 服务器通信,但它也有编码问题,即使我使用 utf8_encode。我应该怎么办?

编辑:在 SQL 命令上,写

其中 XXX 不包含 í 字符,按预期工作,但如果有任何 'í' 字符,则不会。

不仅 í 字符失败,而且没有任何“特殊”字符的字符串也失败。从 SET NAMES 和 SET CHARACTER SET 中删除 ' 字符似乎没有任何改变。

我正在使用 PDO 连接到 MySQL 数据库。

编辑 2:我正在使用 MySQL 版本 5.1.30 的 XAMPP for Linux。

编辑 3:SHOW VARIABLES LIKE '%character%'从 PhpMyAdmin 输出运行

从我的 PHP 脚本(使用 print_r)运行相同的查询输出:

跑步

输出一个空数组。

0 投票
8 回答
38935 浏览

php - PHP 的 json_encode 中的西里尔字符

我正在尝试使用 php 的函数 json_encode 将 Cyrillic UTF-8 数组编码为 JSON 字符串。示例代码如下所示:

它工作正常,但脚本的结果表示为:

每个西里尔字符有 6 个字符。有没有办法获取键/值对的原始字符而不是编码字符?

0 投票
3 回答
1118 浏览

c# - 检测编码转换问题

我公司网站上的大部分内容都以 Word 文档(Windows-1252 编码)开始,最终被复制并粘贴到我们的 UTF-8 编码内容管理系统中。转换通常会阻塞一些必须手动清理的字符(特殊中断字符、智能引号、科学记数法),但当然有一些总是会漏掉。

你认为最好的方法是检测这些?

0 投票
4 回答
2813 浏览

c# - 为什么 UTF8Encoding.GetBytes 不发出字节顺序标记?

该片段说明了一切:-)

0 投票
1 回答
1532 浏览

asp.net - 将 asp.net 项目页面从 Windows-1251 转换为 Utf-8

我可以在 Visual Studio 中使用 Save As Encoding 逐个文件地完成该文件,但我想一键完成。是否可以?

0 投票
4 回答
2404 浏览

c++ - UTF-8 从文件到文本框 VC++ 6.0

如何让旧的 VC++ 6.0 MFC 程序在 TextBox 或 MessageBox 中读取和显示 UTF8?最好不要破坏当前写入其中的任何文件读取和显示(相当大)。

我将一行读入 CString strStr,然后使用以下代码:

仍然不确定如何将其放入文本框中,但事实证明我不需要这样做。