问题标签 [codepoint]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 从十六进制代码创建 UTF-8 字符串
在 C++ 中,可以使用这种表示法创建一个 UTF-8 字符串:"\uD840\uDC50"
.
但是,这在 PHP 中不起作用。有没有类似的符号?
如果没有,是否有任何内置方法可以创建知道其 Unicode 代码点的 UTF-8 字符串?
qt - 如何将 QChar 转换为 int
在 C++ 中,有一种方法可以将 char 转换为 int 并获得 ascii 值作为回报。有没有办法对 qchar 做同样的事情?由于 unicode 支持如此多的字符,而且其中一些实际上看起来很相似,因此有时很难判断一个字符在处理什么。一个明确的代码点或可用于获取此类的数字将非常有帮助。
我在网上和这个网站上搜索了一个解决方案,但到目前为止没有运气,Qt 文档也没有太大帮助,除非我忽略了一些东西。
先感谢您!
编辑:
也许我对这件事不够清楚,对不起。
这是一些代码:
此外,Qt 允许这样做:
据我所知,ch 对象中必须有一些与 unicode 代码点相关的信息。有没有可能把它弄出来?
unicode - 区分 Unicode 中的符号、数字和字母代码点?
Unicode 有大量的代码点,我如何检查代码点是符号(如“!”或“☭”)、数字(如“4”或“৯”)、字母(如“a”或“え”)还是控制字符(通常不直接显示)?
字符的位置背后是否有任何逻辑以及它是什么类型的字符(而不是它是什么字母表的一部分),如果没有,是否有任何现有资源可以分类哪些范围是什么?
unicode - What is the purpose of Default Ignorable Code Points in font rendering?
According to this link, U+00AD is a default ignorable code point.
What exactly is the purpose of these default ignorable code points? What is the harm if I want to render U+00AD ?
The link provides some information, but I am not really clear.
"U+00AD SOFT HYPHEN has a null default appearance: the appearance of ther-apist is simply "therapist"; no visible glyph. In linebreak processing, it indicates a possible intra-word break. At any intra-word break that is used for a line break — whether resulting from this character or by automatic process — a hyphen glyph (perhaps with spelling changes) or some other indication can be shown, depending on language and context."
Please clarify.
javascript - 将 JavaScript 字符串拆分为代码点数组?(考虑“代理对”而不是“字素簇”)
将 JavaScript 字符串拆分为“字符”可以轻松完成,但如果您关心 Unicode(并且您应该关心 Unicode),就会出现问题。
JavaScript 本机将字符视为 16 位实体(UCS-2 或 UTF-16),但这不允许BMP(基本多语言平面)之外的 Unicode 字符。
为了处理 BMP 之外的 Unicode 字符,JavaScript 必须考虑“代理对”,它本身并不这样做。
我正在寻找如何按代码点拆分 js 字符串,代码点是否需要一个或两个 JavaScript“字符”(代码单元)。
根据您的需要,按代码点拆分可能还不够,您可能希望按“字形集群”拆分,其中集群是一个基本代码点,后跟其所有非间距修饰符代码点,例如组合重音符号和变音符号。
出于这个问题的目的,我不需要按字素簇拆分。
unicode - 比较 Rebol 3 中的角色
我正在尝试比较字符以查看它们是否匹配。我不知道为什么它不起作用。我期待true
输出,但我错了。
python - 如何将 U+XXX 转换为实际的 unicode 字符(在本机脚本中)
我有一个代码点列表 (U+XXXX),需要将其转换为真实字符。我的代码点适用于 UTF-8。我已经搜索了之前提到的 unicode,但不知道该怎么做。
我可以去掉 U+XXXX 来得到号码(XXXX),但那又怎样呢?有些人建议使用“unichr()”,但这在 Python3 中甚至没有被识别。
对不起,如果这是基本的;刚开始用 Python 编程。
unicode - UTF-16 reserved codepoints
Why UTF-16 have a reserved range in UCS Database?
UTF-16 is just a way to represent character scalar value using one or two unsigned 16-bits
, the layout of these values shouldn't be related to character scalar value because we should apply some algorithm to get the actual character scalar value from such representation.
Let's assume that the reserved range D800-DBFF
and DC00-DFFF
are not reserved in UCS Database, and there is another representation of UTF-16 that can represent all characters in range 0-7FFF
in single unsigned 16-bits
and when the high order bit is set then another
16-bit is followed with the remaining bits, and for the byte order mark we will reserve the two possible values and that's it.
If I'm wrong then could you explain it to me.
Thanks