问题标签 [codepoint]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
302 浏览

java - 在 Java 中,如何处理 Unicode 字符和 Java UTF-16 代码点?

我正在为 Java 10 中的 Unicode 字符而苦苦挣扎。
我正在使用 java.text.BreakIterator 包。对于这个输出

似乎是正确的。

使用相同的 Java 代码,然后使用此输出

似乎也正确,除了 codePointCount=4。
为什么不是 3,有没有办法在不使用 BreakIterator 的情况下获得 3 值?

我的目标是确定字符串的所有(输出)字符是否都是 16 位的,或者是否存在代理或组合字符?

0 投票
1 回答
455 浏览

python-3.x - Python fonttools:检查字体是否支持多代码点表情符号

我正在尝试检查字体是否具有多代码点表情符号的字形,例如 Python 3.x 中的“‍♂️”、“‍”或“”。

对于像 "" 或 "" 这样的单个代码点表情符号,我可以使用 Python 通过以下代码验证它们的支持fonttols

我该如何为多代码点表情符号执行此操作,因为其中cmp只有单个代码点表情符号?

0 投票
1 回答
465 浏览

dart - 如何在 Dart 中进行字节和 Unicode 之间的转换?

我尝试在如何在 Dart 中使用 char 类型中实现 Irn 答案?(打印字母)但没有确切地知道如何去做。

示例在我的 Dart 代码中,上面带有点的大写i 表示为字节 [304],我必须将其替换为服务器字节 [152],并将其作为字节而不是字符串发送到服务器。

测试一:

输出:

测试 2: 如果我更改List bytes = utf8.encode(iso08859_9);

列表字节 = iso08859_9.codeUnits; 我得到不同的结果。

在我的 Dart 中,我测试了 iso08859_9 字符是否表示为 iso08859_9 字节:

[231、199、287、286、305、304、351、350、246、214、252、220]

现在我的主要问题是将字节更改为IBM CP 字节

[135、128、167、166、141、152、159、158、148、153、129、154]

当我这样做并使用 socket.add(ibmcp_bytes) 来服务器时,该字符也不可读。

更新:

试试这个,结果找出 1 和 2 个字节。???

0 投票
1 回答
115 浏览

java - Java 和 C 之间的代码点不匹配

0 投票
1 回答
896 浏览

c++ - 屏幕上字符的“宽度”

我正在使用 Ncurses 编写文本编辑器。我想知道是否有办法确定屏幕上可以放置多少个不同的字符,每个字符都用 UTF-8 编码。例如,当我得到 10 的屏幕宽度和 1 行时,我可以放置 10 个宽度为 1 的字符,其值如下:

0123456789

但是当我想放一排笑脸时,我只能放其中 4 个,在 10 号屏幕上:

所以在这个例子中,笑脸在屏幕上的宽度为 2,5。我想知道有没有办法确定屏幕上字符的宽度?

0 投票
0 回答
103 浏览

php - PHP 是否提供了一种方法来确定 unicode 代码点是否属于特定语言而不仅仅是特定脚本。?

拉丁文字支持多种语言,我想确保输入字符在一种语言(例如英语或德语)内,而不仅仅是在拉丁文字内。

Unicode 分为块,块不一定是特定于语言的。美国和欧洲使用 Basic Latin 和 Latin-1 Supplement 块,但特别是带有重音的法语字符在 Latin-1 补充块中与带有重音的德语字符混合在一起。因此,如果我只想要法语字符,我是否必须构建自己的合法字符数组,或者是否有资源(以及所有其他语言)?

IntlChar 类更接近但没有解决这个问题。您可以从每个被解析的字符中获取 Unicode 块作为属性。但是,如果 IntlChar 能够识别区域设置,那就太好了,因为区域设置字符串会指定一种语言,并且可能会提供更高的精度。我知道 IntlChar 基于 ICU 库,因此 PHP 语言不太可能更改其实现。

0 投票
0 回答
40 浏览

unicode - 为什么需要 Unicode 代码点才能在 WSL 中使用 AHK 热字串

除非我使用代码点,否则 AutoHotKey 无法在 WSL 上插入数字

我想python3每次使用pipenv. 为此,我需要插入:pip --python /usr/bin/python3 etc.。但是,我不想--python /usr/bin/python3每次都输入,因此我使用 AutoHotKey 脚本自动化了该部分。

当我在记事本文件或路径栏等任何地方键入热字串时,以下行工作正常:

当我输入pipenv记事本时,pipenv --python /usr/bin/python3就会插入字符串。

但是,如果我在 WSL(Linux 的 Windows 子系统)上键入它,我会得到:

我在 CMD 中得到了相同的结果,但在 PowerShell 中却没有(我得到预期的输出)。

为了使它在命令行上工作,我不得不使用十六进制代码点(或实体引用,不确定正确的名称)而不是字符本身来重写我的脚本:

这样,输出pipenv --python /usr/bin/python3在命令行和任何其他环境中都是预期的。我很惊讶会出现这种情况,因为这些字符(-/3是普通的 ASCII 字符,所以我不明白为什么需要使用代码点。

AutoHotKey 脚本包含带有 CRLF 行终止符的 UTF-8 Unicode(带 BOM)文本。

简而言之,我设法使脚本工作。打开这个问题的原因是为了了解为什么会发生这种情况。谢谢。

0 投票
1 回答
1016 浏览

flutter - Flutter:如何绘制 Font Awesome 图标?

CustomPainter根据这个问题,我正在使用颤振来绘制:颤振:如何在画布上绘制图标?

这适用于材料设计图标。但是我想使用相同的技术来绘制 Font Awesome Icons。我正在使用font_awesome_flutter 8.5.0 包,这是我的代码:

我从 IDE 收到一条消息,说“没有为类 'Icon' 定义 getter 'codePoint'”。请问我该如何解决这个问题?

0 投票
1 回答
832 浏览

unicode - 带有肤色的表情符号如何在内部表示?

我正在编写一个处理表情符号的计算机程序。我对表情符号变体如何在内部表示感兴趣。

诸如这些竖起大拇指的表情符号看起来是相同的字符,但具有不同的特征,例如肤色。此外,这些字符似乎占用了相对大量的内存:

这些字符在内部是如何表示的?

0 投票
1 回答
270 浏览

java - 给定 Unicode 代码点的数量,我如何获得该字符的 String 或 CharSequence 对象

我已经看到有关在 Java 中获取 Unicode 字符的代码点编号的问题和解答。例如,问题如何获得 Unicode 字符的代码?.

但我想要相反:给定一个整数,我如何获得分配给该代码点编号的那个字符的文本?

原始char数据类型没有用,仅限于 Unicode 字符集的基本多语言平面。该平面大约代表 Unicode 中定义的前 64,000 个字符。但是 Unicode 已经增长了近一倍,现在定义了超过 113,000 个字符。分配给字符的数字范围超过一百万。基于16-bits,achar被限制在 64K 的范围内,远远不够。

CharacterString类都提供了检查codePointAt字符并返回int表示以 Unicode 分配的代码点的方法。我正在寻找相反的东西。

➥ 给定一个int, 如何获得一个, 或一些实现的对象Character,然后我可以加入其他文本?StringCharSequence

在编写字符串文字时,我们可以使用带有反斜杠的 Unicode 转义序列。但我对使用整数变量、软编码而不是硬编码 Unicode 字符感兴趣。