问题标签 [codepoint]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 为什么 Unicode 代码点转义语法在 php 中不起作用
我对 Unicode 代码点转义语法感到困惑。这是一个演示
在我搜索之后。我发现 eval 会让它正常工作
所以我想知道原因,这是什么原因?php内部是怎么处理的呢?不支持运行时?谢谢!!!
javascript - 为什么 String.fromCharCode(0xd800) 到 String.fromCharCode(0xdfff) 返回替换字符?
为什么会这样:
DFFF₁₆ 是 55296₁₀。我得到相同的结果String.fromCodePoint()
。
javascript - 如何反转“String.fromCodePoint”,即将字符串转换为代码点数组?
String.fromCodePoint(...[127482, 127480])
给我一面美国国旗()。
怎么把flag转回来[127482, 127480]
?
json - 在 slack 中粘贴 JSON 会将一些 unicode 字符更改为其他类似字符...为什么
在我的请求中使用它后,在 SLACK 中复制如下所示的简单 JSON 请求正文会引发错误
我注意到在尝试将其转换为 ASCII 时,在 slack 中粘贴此代码之前和之后的 '"' 字符是不同的 unicode 代码点。这是 slacks 做的吗?或者这是由于他们的字体或某物?
"成为合适的左右引号""</p>
在大多数情况下,他们是否可以/最好将其保存在我指定的 unicode 中?如果复制操作进入数据库并检索我开始使用的实际 unicode 会不会更好,或者这对大多数人来说太慢了?
unicode - Find continuous range in a list of unicode code points
I have a list of unicode code points, something along these lines (not an actual set, problem illustration only):
I need to find the unicode-range
for these. Some parts of this set are continuous, with some points missing - so the range is not U+050B-1EA0
.
Is there a sensible way of extracting those continuous "sub-ranges"?
unicode - 在 Elixir 中计算字符串中的代码点
该String.length/1
函数返回UTF -8 二进制文件中的字素数。
如果我想知道字符串中有多少个 Unicode代码点,我知道我可以这样做:
但这会产生所有代码点的不必要的中间列表,并迭代字符两次。有没有一种方法可以直接计算代码点,而不产生中间列表?
java - java从unicode码点获取unicode表示字符串
我想\u
从整数代码点获取 java 使用的字符串表示形式。我到处找了找,还没有找到一个可行的 awnswer \ud83e\udd82
。我从字节码查看器编译和反编译一个 jar 得到了符号。我不知道它是如何获得这些字符串或从哪里获得的。在 Java 中开发复制 unicode 字符然后将其粘贴并获取它的 Java 字符串版本时非常有用。所以每个类都不必在使用它的 utf-8 中。
java - 从代码点整数列表生成字符串对象?
如果我有一个List< Integer >
整数值是 Unicode代码点编号。如何构造String
由这些代码点确定的字符对象?
例如:
… 或者:
如何从 中获取另一个String
具有值cat
的对象codePoints
?
unicode - 为简体中文标识符构建令牌
我正在尝试为简体中文标识符构建一个令牌。
简体中文标识符在规范中定义如下:
这是UNICODE-BESTFIT和Windows Codepage 936。
例如,我所做的是%xA3C1
在页面中查找,然后获取其对应的代码,即0xff21
. %xA3C1
因此,我找到了, %xA3DA
, %xA3E1
, %xA3FA
, %xA1A2
, %xA1AA
, %xA1AC
, %xA1AD
, %xA1B2
,的相应代码%xA1E6
;%xA1E8
, %xA1EF
, %xA2B1
, %xA2FC
, %xA4A1
, %xFE4F
, 和构建CP936-initial-character
如下:
但是,问题在于,例如,某些范围看起来很奇怪,0x00a4 .. 0x2605
并且0x2488 .. 0x216b
顺序不正确;而且0x3041 .. 0xfa29
看起来太大了。
有谁知道构建这个令牌的正确方法是什么?
java - 为什么 CJK UNIFIED IDEOGRAPHS EXTENSION B 块中的代码点未根据组模式命名
在 Java 标准库中,Character.getName(0x2000A)
返回"CJK UNIFIED IDEOGRAPHS EXTENSION B 2000A"
(在 java 11、16 和 17 中,使用 unicode 版本 10 和 unicode 版本 13),而我期望"CJK UNIFIED IDEOGRAPHS-2000A"
结果让我感到惊讶,因为代码点是带有 name 的字符组的一部分"CJK UNIFIED IDEOGRAPHS-#"
,并且这些块通常从组名中派生出它们的名称,其中 # 替换为代码点编号。例如,u+FA21
返回 name的 codepoint 就是这种情况"CJK COMPATIBILITY IDEOGRAPH-FA21"
。
此规则在Unicode® Standard Annex #42 第 4.4.2 段中进行了解释
如果代码点具有属性 na(直接或通过从封闭组继承),则名称中出现的字符 # 将被解释为代码点的值。
似乎字符是通过 JDK 的“类别规则”命名的,其中字符的名称是通过以大写的代码点块的名称给出的,并附加代码点。
为什么jdk返回代码点的块名称u+2000A
处理它明显不同于u+FA21