对于组合变音符号,它们是否算作字母?因为据我所知,它们只能与格式良好的 Unicode 中的其他字母组合。
ICU 函数确定 Unicode 代码点是否是字母只需要一个代码点,因此对于任何给定的代码点,它无法知道它们是否已与变音符号组合 - 或者如果它是变音符号,则它已与什么组合。我正在尝试使用类似的构造来实现类似于 Unicode 感知正则表达式的东西
while(is_letter(codepoint))
但是,我非常担心如果codepoint
实际上是变音符号会发生什么,它将与以前的代码点和其他校对标记进行校对。
这样做安全吗?还是我必须明确查找并忽略变音符号和其他校对标记?
编辑:我真正需要做的是迭代characters,而不是codepoints。
这个问题是 XY 问题的受害者。我需要就我的实际问题提出一个问题。