问题标签 [codepoint]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
79 浏览

rstudio - 如何在 R Studio Windows 中查看表情符号代码点的图形表示?

我在数据框中有一列代码点对应于表情符号。它们看起来像这样:

我正在使用remoji库,但正如您所见,我的代码点前面没有\U,据我所知,这是该库的方法所必需的。例子:

我设法做的最多是将代码点转换为,\\U1f626但它也不起作用。

提前致谢

0 投票
1 回答
140 浏览

java - 确定 Unicode 代码点是否代表来自特定脚本(例如拉丁脚本)的字符?

Unicode将字符分类为属于某个脚本,例如拉丁脚本

如何测试特定字符(代码点)是否在特定脚本中?

0 投票
2 回答
136 浏览

java - 如何获取任何编码 Java 字符串的 5 个字符?

问题

如果有时编码看起来像“UTF-8”、“UTF-16”和“ASCII”,我怎样才能只得到字符串的 5 个字符?

注意:一些测试输入有表情符号。

代码

例如:

输入:Bärteppich

预期输出:BГ¤rte也意味着Bärte

实际输出:BГ¤rt

输入:brühe

预期输出:brГјhe也意味着brühe

实际输出:brГјh

0 投票
1 回答
39 浏览

java - 性格问题

返回故事

我基本上从数据库中检索字符串。我更改了一些文本或那些字符串。然后我将这些字符串上传回数据库,替换原始字符串。查看显示这些字符串的前端后,我注意到了字符问题。我不再有原始字符串,但我确实有更新的字符串。

问题

这些字符串中包含来自其他语言的字符。它们现在无法正确显示。我查看了代码点,原来的章程似乎是一个代码点,现在是两个不同的代码点。

问题

我怎么"Je?ro^me"回去"Jéróme"

我尝试过的事情

  1. 使用 Notepad++ 将编码转换为UTF8ANSIWINDOWS-1252.
  2. 创建了一个 Map 来查找类似的东西e?并将它们转换为é.

两个尝试解决问题的问题

一种。尝试不同的转换后问题仍然存在。

湾。这里有两个问题:

  1. 我不知道要寻找的所有潜力e?,等。o^有超过 20,000 个文件可能涵盖多种语言。
  2. 如果我有一个以结尾的句子怎么办e?

我研究了一些东西以更好地理解这个问题

  1. 什么是 Java 中的“代理对”?
  2. https://docs.oracle.com/javase/tutorial/i18n/text/supplementaryChars.html
  3. https://www.w3.org/International/questions/qa-what-is-encoding
  4. https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/

MCVE

0 投票
0 回答
16 浏览

character - 如果二进制数字字符代码点值与数字字符不同,计算机内部如何进行数学运算

例如,如果(ascii)数字字符(0123456789)代码点与计算机系统内的(ascii)数字字符数学运算的二进制等效值不同,如何完成

数字字符 1 的 ascii 值是 00110001 而不是 00000001 在这种情况下,如果 1 的二进制代码点不是 00000001,那么如何进行数学运算

0 投票
3 回答
129 浏览

string - 2 字节的 char 数据类型是否不足以处理 Unicode 字符串中的“字符”概念?

各种编程语言使用 2 字节char数据类型(不要与 C/C++ 混淆char,它只是一个字节),从中构造字符串。各种实用函数将尝试char在字符串中找到这样的 a,例如查找ein hello,或执行其他接受或返回chars 的操作(拆分、索引、替换、计算字符串中出现的字符数、长度……) .

如果您深入挖掘,您会发现有关 Unicode 代码点的信息。事实上,Java(我也假设其他语言)允许您迭代这些代码点。但那些似乎由int(4 个字节)而不是char(2 个字节)表示。很少有人会看到人们使用代码点来遍历字符串。由于这样的代码点可能跨越多个chars(最多 2 个,对吗int??),它不是执行字符串操作的最快方法,但它似乎是正确的方法。

一些程序/框架/操作系统(?)也将无法正确处理多char字符,而只会删除其中的第二个char并创建一个“损坏的”字符。

在处理字符串时,您不应该总是使用对代码点进行操作的方法吗?我错过了什么?恐怕有人必须向我解释为什么这个世界char在这似乎已经过时时继续使用。毕竟,char 的大小是否足够?我知道还有额外的“帮助”字符用于“升级”其他字符(将 o 变成 ö 等等)。这些是如何由char代码点迭代处理的?char如果您替换s 而不是“整个”代码点,是否有机会严重破坏您的字符串?

0 投票
1 回答
116 浏览

string - Gforth - 如何获取字符串的代码点?

我知道 gforth 将字符作为它们的代码点存储在堆栈中,但是我从中学习的材料没有显示任何有助于将每个字符转换为代码点的单词。

我还想对字符串的代码点求和。我应该用什么来做到这一点?

0 投票
1 回答
69 浏览

php - 在 PHP PCRE 语法中,如何指定多码点 Unicode 字符/“表情符号”?

代码:

预期输出:

实际输出:

分析:

成功删除单码点表情符号,但未检测到多码点表情符号。

进行的研究:

阅读以下内容:https ://www.php.net/manual/en/regexp.reference.escape.php

在 "\x" 之后,最多读取两个十六进制数字(字母可以是大写或小写)。在 UTF-8 模式下,允许使用 "\x{...}",其中大括号的内容是一串十六进制数字。它被解释为 UTF-8 字符,其代码编号是给定的十六进制数。如果值大于 127,则原始十六进制转义序列 \xhh 匹配两字节 UTF-8 字符。

不幸的是,它没有提到多代码点 Unicode 字符。

问题:

如何在 PHP PCRE 语法中指定多码点表情符号/Unicode 字符?

有用的说明:

这不是一个范围!我能够检测和删除范围。这是由多个“代码点”组成的单个表情符号/Unicode 字符。这里指定了很多:https ://www.unicode.org/Public/emoji/13.1/emoji-sequences.txt

0 投票
3 回答
406 浏览

java - java - 如何在Java中按Unicode代码点(UTF8或UTF32)排序?

Java 的 String.compareTo 使用 UTF16 排序顺序。

上面的代码结果按排序顺序[zion, , figure, flagship] 但是,我希望这个排序顺序是[zion, figure, flagship, ] 注意,一些字符是连字。

0 投票
0 回答
32 浏览

codepoint - 将表情符号转换为 Python 中的代码点数

我想将表情符号转换为 unicode 代码点并将长度定义为这些代码点的数量。

例如,我将表情符号混合为“‼”,并尝试获取 unicode 代码点表达式和代码点数量。

谁能帮助我如何实现这一点?