问题标签 [utf-8]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1884 浏览

ruby - What options do exist now to implement UTF8 in Ruby and RoR?

Following the development of Ruby very closely I learned that detailed character encoding is implemented in Ruby 1.9. My question for now is: How may Ruby be used at the moment to talk to a database that stores all data in UTF8?

Background: I am involved in a new project where Ruby/RoR is at least an option. But the project needs to rely on an internationalized character set (it's spread over many countries), preferably UTF8.

So how do you deal with that? Thanks in advance.

0 投票
4 回答
5688 浏览

ms-access - 使用波浪号分隔符将 MSAccess 表导出为 Unicode

我想从 MSAccess2003 中导出几个表的内容。这些表包含 unicode 日文字符。我想将它们存储为波浪号分隔的文本文件。

我可以使用文件/导出手动执行此操作,并在“高级”对话框中选择波浪号作为字段分隔符和 Unicode 作为代码页。

我可以将其存储为导出规范,但这似乎是特定于表的。

我想使用 VBA 代码导出许多表。

到目前为止,我已经尝试过:

子导出表()

结束子

当我运行它时,我得到一个异常:

运行时错误“3011”:Microsoft Jet 数据库引擎找不到对象“Allowance1#txt”。确保该对象存在并且正确拼写其名称和路径名。

如果我此时调试,TableName 是“Allowance1”,正如预期的那样。

我想我的 UnicodeTilde 导出规范是特定于表的,所以我不能将它用于多个表。

解决办法是什么?我应该使用 TransferText 以外的其他东西,还是以编程方式创建导出规范?

任何帮助表示赞赏。

0 投票
4 回答
3876 浏览

c++ - 如何判断 Windows 剪贴板上的文本是 C++ 中的 ISO 8859 还是 UTF-8?

我想知道是否有一种简单的方法可以检测剪贴板上的文本是 ISO 8859 还是 UTF-8 ?

这是我当前的代码:

0 投票
4 回答
14204 浏览

c - Windows 中的 UTF-8

如何在 C Windows 程序中将代码页设置为 UTF-8?

我有一个使用 fopen 打开文件的第三方库。我可以使用 wcstombs 将我的 Unicode 文件名转换为当前代码页,但是如果用户的文件名包含代码页之外的字符,那么这会中断。

理想情况下,我只需调用 _setmbcp(65001) 将代码页设置为 UTF-8,但是 _setmbcp 的 MSDN 文档指出不支持 UTF-8。

我怎样才能解决这个问题?

0 投票
7 回答
6716 浏览

php - PHP utf8 问题

将带有挪威字符的数组与 utf8 字符进行比较时,我遇到了一些问题。

除了特殊的挪威字符(æ、ø、å)之外的所有字符都可以正常工作。

如果有人对我能做什么有任何想法,请告诉我。

更新:

需要这个的原因是我正在尝试解析一个文本文件,其中包含挪威语和中文单词的行,比如字典。我想将该行拆分为字符串,一个包含挪威语单词,一个包含中文。这稍后将被插入到数据库中。示例行:

impulsiv 形变的</p>

imø动动,反对,</tåp>

imøtekomme 动 符合

alkoholmisbruker(名脂质人)

alkoholpåvirket 形受酒精影响的

alkotest 名呼吸性血液循环测试</p>

alkymi(st) 名炼金术(名炼金术士)

all, alt, alle, 形 全部, 所有

正如你所看到的,单词之间可能有空格,所以我不能使用像explode这样简单的东西来区分中文和挪威语单词。我所做的是使用 isNorwegianChar 并遍历该行,直到找到一个不在数组中的字符。

问题是 æ、ø 和 å 没有作为挪威字符返回,它认为中文单词已经开始。

这是代码:

0 投票
5 回答
27317 浏览

string - UTF8 与 UTF16 与 char* 与什么?有人给我解释一下这个烂摊子!

我已经设法几乎忽略了所有这些多字节字符的东西,但现在我需要做一些 UI 工作,我知道我在这方面的无知会赶上我!谁能在几段或更少的段落中解释我需要知道的内容,以便我可以本地化我的应用程序?我应该使用什么类型(我同时使用 .Net 和 C/C++,对于 Unix 和 Windows,我都需要这个答案)。

0 投票
4 回答
2852 浏览

java - 为什么调用 .getBytes() 时字符串“¿”会被翻译成“¿”

当使用写出字符串“¿”时

¿ 是写而不只是 ¿。

为什么?我们如何解决它?

0 投票
5 回答
3982 浏览

java - 为什么即使使用 UTF-8,在 Windows 和 Linux 中 ¿ 的显示也会不同?

为什么在 Linux 和 Windows 中显示以下内容不同?

在 Windows 中:

¿

在 Linux 中:

一种

0 投票
5 回答
5913 浏览

c++ - 使用 ICU 库的 UTF-8 到 ASCII

我有一个带有 UTF-8 字符的 std::string 。
我想用 ASCII 字符将字符串转换为最接近的等价物。

例如:

Łódź => Lodz
Assunção => Assuncao
Schloß => Schloss

不幸的是 ICU 库真的很不直观,我还没有找到关于它的使用的好的文档,所以我要花太多时间来学习使用它。我没有的时间。

有人可以举一个关于如何做到这一点的小例子吗?
谢谢。

0 投票
6 回答
10012 浏览

c++ - SQLite (C/C++) 的不区分大小写的 UTF-8 字符串排序规则

我正在寻找一种方法来以不区分大小写的方式比较和排序 C++ 中的 UTF-8 字符串,以便在 SQLite 的自定义排序规则函数中使用它。

  1. 理想情况下,该方法应该与语言环境无关。但是我不会屏住呼吸,据我所知,排序规则非常依赖于语言,所以任何适用于英语以外的语言的东西都可以,即使这意味着切换语言环境。
  2. 选项包括使用标准 C 或 C++ 库或小型(适用于嵌入式系统)和非 GPL(适用于专有系统)第三方库。

到目前为止我所拥有的:

  1. strcoll使用 C 语言环境和std::collate/std::collate_byname时区分大小写。(这些有不区分大小写的版本吗?)
  2. 我尝试使用 POSIX strcasecmp,但似乎没有为其他语言环境定义"POSIX"

    在 POSIX 语言环境中,strcasecmp() 和 strncasecmp() 进行从高到低的转换,然后进行字节比较。结果在其他语言环境中未指定。

    而且,事实上,strcasecmp在 Linux 上使用 GLIBC 的语言环境之间的结果并没有改变。

    这是打印的:

    /li>

附言

是的,我知道ICU ,但由于其巨大的尺寸,我们不能在嵌入式平台上使用它。