问题标签 [codepoint]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
431 浏览

html - Notepad++ 显示代码点值而不是从文档转换的 html 文件中的字符

我有两个 word 文档,我通过使用 Word 转换(另存为 html 页面)将其转换为 HTML。两个文档中的内容都是希伯来语和英语。之后我用 Notepad++ 打开了两个文档:

  • 在第一个文档中,一切都显示得很好,我可以看到希伯来语字符。
  • 在第二个文档中,我没有看到单个希伯来字符,而是代码点值。例如,这里有一段来自 html 页面的内容(只是没有 " 标记):

    "מ";"פ";"ר";"ק"; "פ";"ע";"י";"ל";

我当然在同一台机器上使用了相同的 Word 和 Notepad++ 应用程序等。如果有人知道这种现象的可能原因,或/以及如何克服它(我想查看希伯来语字符而不是他们的代码点),我将不胜感激。提前致谢!

0 投票
2 回答
580 浏览

java - 获取char的代码点的正确方法是什么?

我需要用代码点和换行符做一些事情。我有一个接受char's 代码点的函数,如果是\r,它需要以不同的方式表现。我有这个:

但这很丑陋,当然也不是正确的做法。这样做的正确方法是什么?

(我知道我可以对数字13(十进制标识符\r)进行硬编码并使用它,但这样做会使我不清楚我在做什么......)

0 投票
2 回答
228 浏览

unicode - 代理对是在 UTF-16 中表示大于 2 个字节的代码点的唯一方法吗?

我知道这可能是一个愚蠢的问题,但我需要确定这个问题。所以我需要知道,例如,如果一种编程语言说它的 String 类型使用 UTF-16 编码,这是否意味着:

  1. 它将使用 2 个字节作为 U+0000 到 U+FFFF 范围内的代码点。
  2. 它将对大于 U+FFFF(每个代码点 4 个字节)的代码点使用代理对。

还是某些编程语言在编码时使用了自己的“技巧”并且没有100%遵循此标准。

0 投票
3 回答
16142 浏览

unicode - Unicode 是否有定义的最大代码点数?

我已经阅读了很多文章以了解 Unicode 代码点的最大数量,但我没有找到最终答案。

我知道 Unicode 代码点已最小化,以使所有 UTF-8 UTF-16 和 UTF-32 编码都能够处理相同数量的代码点。但是这个代码点的数量是多少?

我遇到的最常见的答案是 Unicode 代码点在 0x000000 到 0x10FFFF (1,114,112 个代码点)的范围内,但我也在其他地方读到它是 1,112,114 个代码点。那么是否有一个数字可以给出,或者问题是否比这更复杂?

0 投票
0 回答
1157 浏览

python - python字符串中的表情符号 - \xF0\x9F\x92\x96 \xF0

_mysql_exceptions.Warning:不正确的字符串值:'\xF0\x9F\x92\x96 \xF0...' 用于第 1 行的列 'title'

s = "这是我的字符串。Über! 0\x9F\x92\x96 \xF0"

我怎样才能0\x9F\x92\x96 \xF0从这个字符串中只删除这个值->?(或编码这个)

编辑:

0 投票
0 回答
372 浏览

javascript - Ruby Emoji unicode 不显示某些图标

我正在使用 ruby​​ 2.2.2 和 Emoji 但由于某种原因,某些图标没有显示例如(来自http://apps.timwhitlock.info/emoji/tables/unicode):

统一码:U+26F5

字节 (UTF-8):\xE2\x9B\xB5

描述:帆船

也许有人知道,我该如何解决?

我知道它适用于 Java、JS、JRuby,问题是:

https://en.wikipedia.org/wiki/UTF-8#Invalid_code_points

谢谢!

这适用于 JavaScript,但如果 JS 输出返回到 ruby​​,它就不起作用。

0 投票
2 回答
165 浏览

python - 按字符串的顺序对非拉丁字符集进行排序?

我正在使用以下代码表单排序:

对于非拉丁字符,输出与输入相同:

我期待的是:

0 投票
1 回答
62 浏览

ios - 按名称搜索 Unicode 代码点

我需要一种在 iOS 上通过 Swift/Objective-C 中的代码点名称来搜索 Unicode 代码点的方法。因此,如果用户键入“shade”,它会找到包含单词 shade 的代码点,例如 U+2591 到 U+2593。最有效的方法是什么?

0 投票
4 回答
10308 浏览

javascript - codePointAt 和 charCodeAt 的区别

String.prototype.codePointAt()JavaScript和JavaScript有什么区别String.prototype.charCodeAt()

0 投票
3 回答
1817 浏览

java - 如果我使用 Java 8 的 String.codePoints 来获取一个 int codePoints 数组,那么数组的长度是否真的是字符数?

给定String stringJava 中的 a ,是否string.codePoints().toArray().length反映String了人类认为有意义的实际字符的长度?换句话说,它是否平滑了转义字符和其他编码伪影?

编辑“人类”我的意思是“程序员”,因为我想象大多数程序员会看到\r\n两个字符,ESC一个字符等。但现在我看到即使是重音符号也会被原子化,所以没关系。