问题标签 [multibyte]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8295 浏览

utf-8 - 将多字节字符转换为 UTF-8

我的应用程序必须将数据写入 XML 文件,该文件将由 swf 文件读取。swf 期望 XML 中的数据采用 UTF-8 编码。我必须将我的应用程序中的一些多字节字符(简体中文、日语、韩语等)转换为 UTF-8。是否有任何 API 调用可以让我这样做?我不想使用任何第 3 方 dll。我需要在 Windows 和 Mac 上都这样做,并且如果可用的话,我更喜欢任何系统 API。

感谢 jbsp72

0 投票
2 回答
333 浏览

c++ - 使用代码将字符集设置为多字节

有没有办法在代码中将字符集设置为多字节。我的意思是不进入编译器的属性并设置它。我的意思是,嗯......在代码中。:p

0 投票
11 回答
3650 浏览

php - 将句子拆分成单独的单词

0 投票
4 回答
705 浏览

c - 是否有关于多字节字符串转换为 unicode wstring 的快速实现?

在我的项目中,我采用 Aho-Corasick 算法在服务器端做一些消息过滤模式,服务器得到的消息是多字节字符串。但经过几次测试,我发现瓶颈是多字节字符串和 unicode wstring 之间的转换。我现在用的是mbstowcs_s和wcstombs_s这对,占了整个模式将近95%的时间成本。另外,我尝试过 MultiByteToWideChar/WideCharToMultiByte,结果是一样的。所以我想知道是否有其他更有效的方法来完成这项工作?我的项目是用VS2005构建的,转换后的字符串会包含汉字。非常感谢。

0 投票
4 回答
4667 浏览

php - 将多字节字符串截断为 n 个字符

我正在尝试在字符串过滤器中使用此方法:

我期待这个

还有这个

那是$chars减去字符串的字符$terminator

此外,过滤器应该在低于$chars限制的第一个单词边界处切割,例如

我很确定这应该适用于这些步骤

  • 从最大字符中减去终止符中的字符数
  • 验证字符串是否比计算的限制长或原样返回
  • 找到低于计算限制的字符串中的最后一个空格字符以获取单词边界
  • 如果没有找到最后一个空格,则在最后一个空格处剪切字符串或计算限制
  • 将终止符附加到字符串
  • 返回字符串

但是,我现在尝试了各种str*mb_*功能的组合,但都产生了错误的结果。这不可能那么难,所以我显然错过了一些东西。有人会为此分享一个有效的实现,或者将我指向一个我最终可以理解如何做到这一点的资源。

谢谢

PS 是的,我之前检查过https://stackoverflow.com/search?q=truncate+string+php :)

0 投票
3 回答
12407 浏览

c - Unicode 与多字节

我真的对这个 unicode 与多字节的东西感到困惑。

假设我正在用 Unicode 编译我的程序(但最终,我想要一个独立于所用字符集的解决方案)。

1) 所有的 'char' 都会被解释为宽字符吗?

2) 如果我有一个简单的 printf 语句,即 printf("Hello World\n"); 没有字符串,我可以不使用 _tprintf 和 _T("...") 吗?如果 printf 语句包含字符串,那么我应该使用 _tprintf 和 _T("..."),即 _tprintf("Hello %s\n", name); ?

3) 如果我有一个要读入缓冲区的文本文件(以默认格式保存,即不更改使用的默认字符集),我还可以使用 char 代替 TCHAR 吗?特别是如果我逐个字符地阅读它,即通过增加字符指针?

谢谢你。

问候,雷恩

0 投票
1 回答
2138 浏览

c++ - 从 ANSI 转换为 Unicode

我正在使用 Visual Studio .NET 2003,我正在尝试将纯 ANSI 字符编写的程序转换为独立于 Unicode/多字节字符。

该程序有一个pcap_loop的回调函数,称为“got_packet”。它被定义为

但是,我收到错误消息

如何解决这个问题?

0 投票
3 回答
136 浏览

.net - 如何在 .NET 的较大集合中定位一系列值(特别是字节)

我需要解析文件中的字节,以便仅在识别出某个字节序列后才获取数据。例如,如果序列只是 0xFF(一个字节),那么我可以在集合上使用 LINQ:

但是有没有一种优雅的方法来检测多字节序列 - 例如 0xFF、0xFF - 特别是在它开始得到误报匹配的情况下回溯?

0 投票
5 回答
5368 浏览

c++ - c ++:获取宽字符的ascii值

假设我有一个像“äa”这样的字符数组。有没有办法获得第一个字符的 ascii 值(例如 228),它是一个多字节?即使我将数组转换为 wchar_t * 数组,我也无法获得“ä”的 ascii 值,因为它有 2 个字节长。有没有办法做到这一点,我现在尝试了 2 天 :(

我正在使用 gcc。

谢谢!

0 投票
8 回答
25430 浏览

php - strtolower() 用于 unicode/多字节字符串

我的页面中有一些非英语/外语文本,但是当我尝试将其设为小写时,它的字符会转换为包含问号的黑色菱形。

我已经在元标记中设置了我的字符集,但这并没有解决它。

我该怎么做才能将我的字符串转换为小写而不破坏它?