问题标签 [utf-8]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1274 浏览

iphone - iPhone“网站错误”

我正在用 PHP 为 iPhone 应用程序编写服务器端程序。而且我没有 iPhone。:P

每当用户运行 iPhone 应用程序时,iPhone 应用程序都会从​​站点请求 XML 文件。您可以访问http://www.appvee.com/iphone/adshttp://www.appvee.com/iphone/latest获取 XML 文件。

并且会显示一个消息框,其中包含以下错误消息:“Web Site Error Conversion of data failed. The file is not UTF-8, or in the encoding specified in XML header if XML.” 替代文字

也许我必须添加 header("Content-type: text/xml"); 在 PHP 文件的开头?我没有添加这一行,它之前运行良好。

任何帮助是极大的赞赏。

0 投票
9 回答
134357 浏览

python - 如何在 Python 中将文件转换为 utf-8?

我需要在 Python 中将一堆文件转换为 utf-8,并且在“转换文件”部分遇到问题。

我想做相当于:

谢谢!

0 投票
1 回答
222 浏览

ruby-on-rails - act_as_taggable_on_steroids 的 Unicode 问题

我正在实现一个带有一些法语字符标签的博客。我的问题与如何处理 url 中的空格和 unicode (utf-8) 字符有关。

假设我有一个名为:ohlàlà!我的标签云中有以下代码:

我该如何处理这个问题?

0 投票
5 回答
10564 浏览

utf-8 - 如何将 UTF-8 字符串反转到位?

最近,有人询问了一种在 C 中反转字符串的算法。大多数提出的解决方案在处理非单字节字符串时都会遇到麻烦。所以,我想知道什么是专门处理 utf-8 字符串的好算法。

我想出了一些代码,我将其作为答案发布,但我很高兴看到其他人的想法或建议。我更喜欢使用实际代码,所以我选择了 C#,因为它似乎是这个网站上最流行的语言之一,但我不介意你的代码是另一种语言,只要它可以合理任何熟悉命令式语言的人都能理解。而且,因为这是为了了解如何在低级别实现这样的算法(低级别我只是指处理字节),所以这个想法是避免将库用于核心代码。

笔记:

我对算法本身、它的性能以及如何优化它感兴趣(我的意思是算法级优化,不是用 ++i 替换 i++ 等;我对实际的基准测试也不感兴趣)。

我并不是要在生产代码中实际使用它或“重新发明轮子”。这只是出于好奇和练习。

我正在使用 C# 字节数组,所以我假设您可以在不运行字符串的情况下获取字符串的长度,直到找到 NUL。也就是说,我没有考虑找到字符串长度的复杂性。但是,如果您使用的是 C,例如,您可以在调用核心代码之前使用 strlen() 将其排除在外。

编辑:

正如 Mike F 所指出的,我的代码(以及此处发布的其他人的代码)没有处理复合字符。关于这里的一些信息。我不熟悉这个概念,但如果这意味着存在“组合字符”,即仅与其他“基本”字符/代码点组合有效的字符/代码点,则此类查找表字符可用于在反转时保留“全局”字符(“基”+“组合”字符)的顺序。

0 投票
4 回答
1309 浏览

file - 如何为 Unicode 文件设置字节顺序标记?

我知道这不是一个“真正的”编程问题。但是,它与编程有关,所以我还是要设置它。我有一个需要测试的程序,它读取文件的字节顺序标记以查看它是 utf-8 还是 utf-16。我的问题是我找不到允许我设置字节顺序标记的程序/文本编辑器。谁能告诉我如何在文本文件中设置它?

0 投票
14 回答
260791 浏览

mysql - 如何让 MySQL 正确处理 UTF-8

我昨天提出的一个问题的回答之一建议我应该确保我的数据库可以正确处理 UTF-8 字符。我怎么能用 MySQL 做到这一点?

0 投票
3 回答
2151 浏览

perl - 如何检测格式错误的 UTF 字符

我想在使用 SQL*Loader 加载数据时使用 Perl 脚本检测并用空格替换格式错误的 UTF-8 字符。我怎样才能做到这一点?

0 投票
1 回答
8133 浏览

c++ - 如何输入 4 字节的 UTF-8 字符?

我正在编写一个小应用程序,我需要使用不同字节长度的 utf-8 字符进行测试。

我可以输入 unicode 字符来测试以 utf-8 编码的 1,2 和 3 个字节,例如:

但是如何获得一个用 4 字节编码的 unicode 字符呢?我试过了:

据我了解应该是输出。但是当我打印出来时,我得到ᴶ0

我错过了什么?

编辑:

我通过添加前导零让它工作:

希望我早点想到这一点:)

0 投票
11 回答
73033 浏览

php - 用 BOM 搜索 UTF-8 文件的优雅方式?

出于调试目的,我需要递归搜索以 UTF-8 字节顺序标记 (BOM) 开头的所有文件的目录。我目前的解决方案是一个简单的 shell 脚本:

或者,如果您更喜欢简短、不可读的单行字:

它不适用于包含换行符的文件名,但无论如何都不会期望此类文件。

有没有更短或更优雅的解决方案?

是否有任何有趣的文本编辑器或文本编辑器的宏?

0 投票
23 回答
25037 浏览

unicode - 寻找 UTF-8 文本编辑器

我正在寻找一个(简单的)文本编辑器,它可以处理同一文档中不同编码的文本。

我需要开发一些日文和英文混合文本的网站,而我现在拥有的编辑器(在英文 Windows 系统上)无法显示日文文本。Jedit 文件不显示我输入的日语文本,但是当我在浏览器中查看该文件时,它会正确显示。Gvim 将编辑器中的所有日文文本显示为问号,也在浏览器中显示。在 Gvim 中输入汉字的工作(你输入发音,然后按空格键来获取汉字)但是当你确认你想要的汉字时,它会用问号替换那个汉字。(每个汉字1个问号)。

有人可以推荐我一个文本编辑器来编辑能够显示 utf-8 编码文本并保存为 utf-8 文件的 html 和 php 文件吗?

谢谢你。

在阅读了有关 emacs 的信息后,我安装了它。见下文。

谢谢大家的提示。如果您还没有 unicode 字体,则必须在网上找到一种或购买一种。这是在 Windows 系统上安装字体的说明http://support.microsoft.com/kb/314960

jEdit 我将 Jedit 中的字体更改为 UTF 字体,现在日文显示正常。输入日语仍然有问题,因为您看不到您在输入什么。(要更改字体以编辑文件,请转到实用程序 -> 全局选项 -> 文本区域选择 Unicode 字体,您将能够看到日文字符。

gVim 我仍在试图弄清楚如何在 gvim 中添加字体。一旦我知道该怎么做,我会更新这个。

Emacs Emacs 不能正确显示汉字,它们显示为 ??? 但至少我可以看到我用日语输入的内容并选择正确的单词。

所以此时我不得不说,在 jEdit 中我可以看到日文文本,但我无法输入日文文本。Gvim 我可以输入日文文本,但在文本区域内显示为 ??? Emacs 也是如此。遗憾的是,在 emacs 和 gvim 中添加字体并非易事。目前,我使用带有 Arial unicode MS 字体的记事本并保存为 UTF-8 文件作为我的日语编辑器。不理想,但至少它有效。