问题标签 [multibyte]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
utf-8 - 将多字节字符转换为 UTF-8
我的应用程序必须将数据写入 XML 文件,该文件将由 swf 文件读取。swf 期望 XML 中的数据采用 UTF-8 编码。我必须将我的应用程序中的一些多字节字符(简体中文、日语、韩语等)转换为 UTF-8。是否有任何 API 调用可以让我这样做?我不想使用任何第 3 方 dll。我需要在 Windows 和 Mac 上都这样做,并且如果可用的话,我更喜欢任何系统 API。
感谢 jbsp72
c++ - 使用代码将字符集设置为多字节
有没有办法在代码中将字符集设置为多字节。我的意思是不进入编译器的属性并设置它。我的意思是,嗯......在代码中。:p
c - 是否有关于多字节字符串转换为 unicode wstring 的快速实现?
在我的项目中,我采用 Aho-Corasick 算法在服务器端做一些消息过滤模式,服务器得到的消息是多字节字符串。但经过几次测试,我发现瓶颈是多字节字符串和 unicode wstring 之间的转换。我现在用的是mbstowcs_s和wcstombs_s这对,占了整个模式将近95%的时间成本。另外,我尝试过 MultiByteToWideChar/WideCharToMultiByte,结果是一样的。所以我想知道是否有其他更有效的方法来完成这项工作?我的项目是用VS2005构建的,转换后的字符串会包含汉字。非常感谢。
php - 将多字节字符串截断为 n 个字符
我正在尝试在字符串过滤器中使用此方法:
我期待这个
还有这个
那是$chars
减去字符串的字符$terminator
。
此外,过滤器应该在低于$chars
限制的第一个单词边界处切割,例如
我很确定这应该适用于这些步骤
- 从最大字符中减去终止符中的字符数
- 验证字符串是否比计算的限制长或原样返回
- 找到低于计算限制的字符串中的最后一个空格字符以获取单词边界
- 如果没有找到最后一个空格,则在最后一个空格处剪切字符串或计算限制
- 将终止符附加到字符串
- 返回字符串
但是,我现在尝试了各种str*
和mb_*
功能的组合,但都产生了错误的结果。这不可能那么难,所以我显然错过了一些东西。有人会为此分享一个有效的实现,或者将我指向一个我最终可以理解如何做到这一点的资源。
谢谢
PS 是的,我之前检查过https://stackoverflow.com/search?q=truncate+string+php :)
c - Unicode 与多字节
我真的对这个 unicode 与多字节的东西感到困惑。
假设我正在用 Unicode 编译我的程序(但最终,我想要一个独立于所用字符集的解决方案)。
1) 所有的 'char' 都会被解释为宽字符吗?
2) 如果我有一个简单的 printf 语句,即 printf("Hello World\n"); 没有字符串,我可以不使用 _tprintf 和 _T("...") 吗?如果 printf 语句包含字符串,那么我应该使用 _tprintf 和 _T("..."),即 _tprintf("Hello %s\n", name); ?
3) 如果我有一个要读入缓冲区的文本文件(以默认格式保存,即不更改使用的默认字符集),我还可以使用 char 代替 TCHAR 吗?特别是如果我逐个字符地阅读它,即通过增加字符指针?
谢谢你。
问候,雷恩
c++ - 从 ANSI 转换为 Unicode
我正在使用 Visual Studio .NET 2003,我正在尝试将纯 ANSI 字符编写的程序转换为独立于 Unicode/多字节字符。
该程序有一个pcap_loop的回调函数,称为“got_packet”。它被定义为
但是,我收到错误消息
如何解决这个问题?
.net - 如何在 .NET 的较大集合中定位一系列值(特别是字节)
我需要解析文件中的字节,以便仅在识别出某个字节序列后才获取数据。例如,如果序列只是 0xFF(一个字节),那么我可以在集合上使用 LINQ:
但是有没有一种优雅的方法来检测多字节序列 - 例如 0xFF、0xFF - 特别是在它开始得到误报匹配的情况下回溯?
c++ - c ++:获取宽字符的ascii值
假设我有一个像“äa”这样的字符数组。有没有办法获得第一个字符的 ascii 值(例如 228),它是一个多字节?即使我将数组转换为 wchar_t * 数组,我也无法获得“ä”的 ascii 值,因为它有 2 个字节长。有没有办法做到这一点,我现在尝试了 2 天 :(
我正在使用 gcc。
谢谢!
php - strtolower() 用于 unicode/多字节字符串
我的页面中有一些非英语/外语文本,但是当我尝试将其设为小写时,它的字符会转换为包含问号的黑色菱形。
我已经在元标记中设置了我的字符集,但这并没有解决它。
我该怎么做才能将我的字符串转换为小写而不破坏它?