问题标签 [codepoint]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
57 浏览

php - 为什么 Unicode 代码点转义语法在 php 中不起作用

我对 Unicode 代码点转义语法感到困惑。这是一个演示

在我搜索之后。我发现 eval 会让它正常工作

所以我想知道原因,这是什么原因?php内部是怎么处理的呢?不支持运行时?谢谢!!!

0 投票
1 回答
84 浏览

javascript - 为什么 String.fromCharCode(0xd800) 到 String.fromCharCode(0xdfff) 返回替换字符?

为什么会这样:

DFFF₁₆ 是 55296₁₀。我得到相同的结果String.fromCodePoint()

0 投票
1 回答
202 浏览

javascript - 如何反转“String.fromCodePoint”,即将字符串转换为代码点数组?

String.fromCodePoint(...[127482, 127480])给我一面美国国旗()。

怎么把flag转回来[127482, 127480]

0 投票
1 回答
60 浏览

json - 在 slack 中粘贴 JSON 会将一些 unicode 字符更改为其他类似字符...为什么

在我的请求中使用它后,在 SLACK 中复制如下所示的简单 JSON 请求正文会引发错误

我注意到在尝试将其转换为 ASCII 时,在 slack 中粘贴此代码之前和之后的 '"' 字符是不同的 unicode 代码点。这是 slacks 做的吗?或者这是由于他们的字体或某物?

"成为合适的左右引号""</p>

在大多数情况下,他们是否可以/最好将其保存在我指定的 unicode 中?如果复制操作进入数据库并检索我开始使用的实际 unicode 会不会更好,或者这对大多数人来说太慢了?

0 投票
1 回答
36 浏览

unicode - Find continuous range in a list of unicode code points

I have a list of unicode code points, something along these lines (not an actual set, problem illustration only):

I need to find the unicode-range for these. Some parts of this set are continuous, with some points missing - so the range is not U+050B-1EA0. Is there a sensible way of extracting those continuous "sub-ranges"?

0 投票
1 回答
119 浏览

unicode - 在 Elixir 中计算字符串中的代码点

String.length/1函数返回UTF -8 二进制文件中的字素数。

如果我想知道字符串中有多少个 Unicode代码点,我知道我可以这样做:

但这会产生所有代码点的不必要的中间列表,并迭代字符两次。有没有一种方法可以直接计算代码点,而不产生中间列表?

0 投票
2 回答
323 浏览

java - java从unicode码点获取unicode表示字符串

我想\u从整数代码点获取 java 使用的字符串表示形式。我到处找了找,还没有找到一个可行的 awnswer \ud83e\udd82。我从字节码查看器编译和反编译一个 jar 得到了符号。我不知道它是如何获得这些字符串或从哪里获得的。在 Java 中开发复制 unicode 字符然后将其粘贴并获取它的 Java 字符串版本时非常有用。所以每个类都不必在使用它的 utf-8 中。

0 投票
3 回答
118 浏览

java - 从代码点整数列表生成字符串对象?

如果我有一个List< Integer >整数值是 Unicode代码点编号。如何构造String由这些代码点确定的字符对象?

例如:

… 或者:

如何从 中获取另一个String具有值cat的对象codePoints

0 投票
1 回答
84 浏览

unicode - 为简体中文标识符构建令牌

我正在尝试为简体中文标识符构建一个令牌。

简体中文标识符在规范中定义如下:

在此处输入图像描述

这是UNICODE-BESTFITWindows Codepage 936

例如,我所做的是%xA3C1在页面中查找,然后获取其对应的代码,即0xff21. %xA3C1因此,我找到了, %xA3DA, %xA3E1, %xA3FA, %xA1A2, %xA1AA, %xA1AC, %xA1AD, %xA1B2,的相应代码%xA1E6%xA1E8, %xA1EF, %xA2B1, %xA2FC, %xA4A1, %xFE4F, 和构建CP936-initial-character如下:

在此处输入图像描述

但是,问题在于,例如,某些范围看起来很奇怪,0x00a4 .. 0x2605并且0x2488 .. 0x216b顺序不正确;而且0x3041 .. 0xfa29看起来太大了。

有谁知道构建这个令牌的正确方法是什么?

0 投票
0 回答
89 浏览

java - 为什么 CJK UNIFIED IDEOGRAPHS EXTENSION B 块中的代码点未根据组模式命名

在 Java 标准库中,Character.getName(0x2000A)返回"CJK UNIFIED IDEOGRAPHS EXTENSION B 2000A"(在 java 11、16 和 17 中,使用 unicode 版本 10 和 unicode 版本 13),而我期望"CJK UNIFIED IDEOGRAPHS-2000A"

结果让我感到惊讶,因为代码点是带有 name 的字符组的一部分"CJK UNIFIED IDEOGRAPHS-#",并且这些块通常从组名中派生出它们的名称,其中 # 替换为代码点编号。例如,u+FA21返回 name的 codepoint 就是这种情况"CJK COMPATIBILITY IDEOGRAPH-FA21"

此规则在Unicode® Standard Annex #42 第 4.4.2 段中进行了解释

如果代码点具有属性 na(直接或通过从封闭组继承),则名称中出现的字符 # 将被解释为代码点的值。

似乎字符是通过 JDK 的“类别规则”命名的,其中字符的名称是通过以大写的代码点块的名称给出的,并附加代码点。

为什么jdk返回代码点的块名称u+2000A处理它明显不同于u+FA21