问题标签 [unicode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 处理包含多个字符编码的字符串
我不确定如何真正问这个问题,而且我离找到答案还很遥远,所以我希望有人能帮助我。
我正在编写一个 Python 应用程序,它连接到远程主机并接收返回的字节数据,我使用 Python 的内置 struct 模块对其进行解包。我的问题是字符串,因为它们包含多个字符编码。以下是此类字符串的示例:
"^L这是一个示例 ^Gstring 具有多个 ^J 字符编码"
使用特殊转义字符标记不同编码开始和结束的位置:
- ^L - 拉丁语1
- ^E - 中欧
- ^T - 土耳其语
- ^B - 波罗的海
- ^J - 日语
- ^C - 西里尔字母
- ^G - 希腊语
等等......我需要一种将这种字符串转换为 Unicode 的方法,但我真的不知道该怎么做。我已经阅读了 Python 的编解码器和 string.encode/decode,但我真的一点也不聪明。我还应该提到,我无法控制主机如何输出字符串。
我希望有人可以帮助我了解如何开始。
php - PHP 函数 imagettftext() 和 unicode
我正在使用 PHP 函数 imagettftext() 将文本转换为 GIF 图像。我正在转换的文本包含 Unicode 字符,包括日语。在我的本地机器(Ubuntu 7.10)上一切正常,但在我的虚拟主机服务器上,日语字符被破坏了。什么可能导致差异?一切都应该编码为 UTF-8。
虚拟主机服务器上的损坏图像:http: //www.ibeni.net/flashcards/imagetest.php
从我的本地机器复制正确的图像:http: //www.ibeni.net/flashcards/imagetest.php.gif
从我的本地机器复制 phpinfo():http: //www.ibeni.net/flashcards/phpinfo.php.html
从我的虚拟主机服务器复制 phpinfo(): http ://example5.nfshost.com/phpinfo
代码:
c++ - C++ 代码中的 UTF 用法
UTF 和 UCS 有什么区别。
在 C++ 字符串中表示非欧洲字符集(使用 UTF)的最佳方法是什么。我想知道您对以下方面的建议:
- 代码内部的表示
- 用于运行时的字符串操作
- 用于将字符串用于显示目的。
- 最佳存储表示(即在文件中)
- 最佳有线传输格式(在可能位于不同架构且具有不同标准语言环境的应用程序之间传输)
file - 如何为 Unicode 文件设置字节顺序标记?
我知道这不是一个“真正的”编程问题。但是,它与编程有关,所以我还是要设置它。我有一个需要测试的程序,它读取文件的字节顺序标记以查看它是 utf-8 还是 utf-16。我的问题是我找不到允许我设置字节顺序标记的程序/文本编辑器。谁能告诉我如何在文本文件中设置它?
java - 如何在 Java/Eclipse 中使用特殊字符
如何在 Java/Eclipse 中使用/显示 ♥、♦、♣ 或 ♠ 等字符?
当我尝试直接使用它们时,例如在源代码中,Eclipse 无法保存文件。
我能做些什么?
编辑:如何找到 unicode 转义序列?
regex - 如何在 Perl 中仅匹配 Unicode 字符串中的完全组合字符?
我正在寻找一种仅匹配 Unicode 字符串中完全组成的字符的方法。
是否[:print:]
依赖于包含此字符类的任何正则表达式实现中的语言环境?例如,它会匹配日文字符“あ”,因为它不是控制字符,还是[:print:]
总是 ASCII 码 0x20 到 0x7E?
是否有任何字符类(包括 Perl RE)可用于匹配控制字符以外的任何内容?如果[:print:]
仅包含 ASCII 范围内的字符,我会假设[:cntrl:]
也包含。
vba - VBA 编辑器中的宏
一直在使用 VBA 创建一个简单的程序,我可以用它来复习中文词汇。
到目前为止,我已经做了一些工作,但是在输入诸如“ā”(unicode 257)之类的宏字符时遇到了一个巨大的问题。我现在正在处理的特定应用程序涉及更改文本框表单的内容,以便在我在文本框中键入时自动替换“a”。这样的程序本身很简单——我可以让它与拼音字符“á”和“à”一起工作。
前一个是尝试使用 Mid 函数在用户的适当提示下将文本框字符串中的一个字符替换为拼音字符。
挂断是我无法将“ā”输入VBA!我一直在寻找互联网,但这对其他人来说似乎不是问题。当我在 VBA 编辑器中输入 alt + 0257 时,什么也没有发生。我也不能从记事本复制粘贴。我准备废弃 VBA 并用其他语言重做这个应用程序。
干杯
c++ - 如何输入 4 字节的 UTF-8 字符?
我正在编写一个小应用程序,我需要使用不同字节长度的 utf-8 字符进行测试。
我可以输入 unicode 字符来测试以 utf-8 编码的 1,2 和 3 个字节,例如:
但是如何获得一个用 4 字节编码的 unicode 字符呢?我试过了:
据我了解应该是输出。但是当我打印出来时,我得到ᴶ0
我错过了什么?
编辑:
我通过添加前导零让它工作:
希望我早点想到这一点:)
c++ - CMapStringToOb::Lookup 不适用于日文字符
有谁知道为什么CMapStringToOb::Lookup
日语不行?该代码从字符串表中加载一个字符串,并将其放入 CMapStringToOb 对象中。稍后它从字符串表中加载相同的字符串(因此保证完全相同)并调用CMapStringToOb::Lookup
查找它。它适用于我们翻译和测试过的所有语言,除了在 CMapStringToOb 对象中找不到字符串的日语。谢谢
vba - 如何确定文本是否为西里尔字符?
我的垃圾邮件文件夹里塞满了似乎是西里尔字母的邮件。如果邮件正文或邮件主题是西里尔文,我想永久删除它。
在我的屏幕上,我看到西里尔字符,但是当我在 Outlook 中遍历 VBA 中的邮件时,邮件的“主题”属性返回问号。
如何确定邮件的主题是否为西里尔字符?
(注意:我检查了“InternetCodepage”属性——它通常是西欧的。)