问题标签 [character-properties]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

93 问题

0 投票

1 回答

1375 浏览

python - 在 Python 中将区分大小写的 unicode 字符串与正则表达式匹配

假设我想匹配一个小写字母后跟一个大写字母，我可以做类似的事情

现在我想对 unicode 字符串做同样的事情，即匹配“aÅ”或“yÜ”之类的东西。

试过了

但这不起作用。

有什么线索吗？

2011-09-13T06:50:42.233

0 投票

3 回答

1256 浏览

php - 如何找出 UTF 8 中的标点字符形式？

php string unicode character-properties

2011-10-05T13:15:49.937

0 投票

1 回答

298 浏览

unicode - 组合变音符号的性质

对于组合变音符号，它们是否算作字母？因为据我所知，它们只能与格式良好的 Unicode 中的其他字母组合。

ICU 函数确定 Unicode 代码点是否是字母只需要一个代码点，因此对于任何给定的代码点，它无法知道它们是否已与变音符号组合 - 或者如果它是变音符号，则它已与什么组合。我正在尝试使用类似的构造来实现类似于 Unicode 感知正则表达式的东西

但是，我非常担心如果codepoint实际上是变音符号会发生什么，它将与以前的代码点和其他校对标记进行校对。

这样做安全吗？还是我必须明确查找并忽略变音符号和其他校对标记？

编辑：我真正需要做的是迭代characters，而不是codepoints。

这个问题是 XY 问题的受害者。我需要就我的实际问题提出一个问题。

unicode character-properties

2011-11-26T20:38:10.283

0 投票

2 回答

2131 浏览

c++ - 逐个字符地遍历 Unicode 代码点

我有一系列 Unicode 代码点。我真正需要做的是将这些代码点作为一系列字符而不是一系列代码点进行迭代，并确定每个单独字符的属性，例如是一个字母，等等。

例如，假设我正在编写一个支持 Unicode 的文本框，而用户输入了一个不止一个代码点的 Unicode 字符，例如“e with diacritic”。我知道这个特定的字符也可以表示为一个代码点，并且可以标准化为那种形式，但我认为在一般情况下这是不可能的。我怎样才能实现退格？它显然不能只擦除最后一个代码点，因为他们可能刚刚输入了多个代码点。

如何将一堆 Unicode 代码点作为字符进行迭代？

编辑：ICU 提供的 Break Iterators 似乎正是我所需要的。但是，我没有使用 ICU，因此任何关于如何实现我自己的等效功能的参考都是可以接受的答案。

另一个编辑：事实证明，Windows API 确实提供了这个功能。MSDN 只是不太擅长将所有字符串函数放在一个地方。CharNext是我正在寻找的功能。

c++unicode character-properties

2011-11-26T22:05:14.553

0 投票

1 回答

11313 浏览