问题标签 [character-properties]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Python 中将区分大小写的 unicode 字符串与正则表达式匹配
假设我想匹配一个小写字母后跟一个大写字母,我可以做类似的事情
现在我想对 unicode 字符串做同样的事情,即匹配“aÅ”或“yÜ”之类的东西。
试过了
但这不起作用。
有什么线索吗?
unicode - 组合变音符号的性质
对于组合变音符号,它们是否算作字母?因为据我所知,它们只能与格式良好的 Unicode 中的其他字母组合。
ICU 函数确定 Unicode 代码点是否是字母只需要一个代码点,因此对于任何给定的代码点,它无法知道它们是否已与变音符号组合 - 或者如果它是变音符号,则它已与什么组合。我正在尝试使用类似的构造来实现类似于 Unicode 感知正则表达式的东西
但是,我非常担心如果codepoint
实际上是变音符号会发生什么,它将与以前的代码点和其他校对标记进行校对。
这样做安全吗?还是我必须明确查找并忽略变音符号和其他校对标记?
编辑:我真正需要做的是迭代characters,而不是codepoints。
这个问题是 XY 问题的受害者。我需要就我的实际问题提出一个问题。
c++ - 逐个字符地遍历 Unicode 代码点
我有一系列 Unicode 代码点。我真正需要做的是将这些代码点作为一系列字符而不是一系列代码点进行迭代,并确定每个单独字符的属性,例如是一个字母,等等。
例如,假设我正在编写一个支持 Unicode 的文本框,而用户输入了一个不止一个代码点的 Unicode 字符,例如“e with diacritic”。我知道这个特定的字符也可以表示为一个代码点,并且可以标准化为那种形式,但我认为在一般情况下这是不可能的。我怎样才能实现退格?它显然不能只擦除最后一个代码点,因为他们可能刚刚输入了多个代码点。
如何将一堆 Unicode 代码点作为字符进行迭代?
编辑:ICU 提供的 Break Iterators 似乎正是我所需要的。但是,我没有使用 ICU,因此任何关于如何实现我自己的等效功能的参考都是可以接受的答案。
另一个编辑:事实证明,Windows API 确实提供了这个功能。MSDN 只是不太擅长将所有字符串函数放在一个地方。CharNext是我正在寻找的功能。
python - 仅匹配 Python re 中的 unicode 字母
我有一个字符串,我想从中提取 3 个组:
月份名称可能包含非 ASCII 字符,因此[A-Za-z]
对我不起作用:
我可以使用\w
,但它匹配数字和下划线:
我尝试使用[:alpha:],但它不起作用:
\w
如果我可以在没有的情况下以某种方式匹配[_0-9]
,但我不知道如何。即使我知道如何做到这一点,是否有一个现成的快捷方式,如[:alpha:]
在 Python 中有效?
regex - Perl 脚本停止。错误:找不到 unicode 属性定义 ASCII
我继承了一些 perl 脚本。(我不是 perl 程序员)。
我"can't find unicode property definition ascii"
在下一行看到一个错误
这个错误会导致程序执行停止吗?因为它是程序停止前打印的最后一行。
在它放弃之前,同一条生产线已经运行了 1000 多次。问题可能是什么?
我倾向于$value 的值不是导致问题的原因。我对吗?
在我看来,好像 {ascii} 已从 unicode 定义中删除。可以这样做还是我完全吠错了树?
javascript - 如何在 javascript 的正则表达式中使用 unicode 字符组?
有一种方法可以在原生 JavaScript 中使用“\p{L}”之类的模式吗?
(我想这是一种与 perl 兼容的语法)
我首先对firefox支持和webkit感兴趣,可能
regex - 可以在 `\p{name}` 中指定的 `unicode groups` 和 `block range` 是什么?
可以在字符类中指定的 unicode groups
和是什么?block ranges
\p{name}
例如
名称和描述列表在哪里可用?
regex - 正则表达式不接受 %
这组 RegEx 有什么问题/^[\p{L}\p{N}]+/u
。当我的前辈输入% open mind时,正则表达式返回 false。我需要它来接受这种格式
% 思想开放
100% 思想开放 思想
开放 100%
我需要在表达式中添加什么?这样即使用户%
首先输入或任何特殊字符,它也会接受输入。
java - 使用 Unicode 分隔符的溢出字符串
我需要在java中用“-”作为分隔符分割一个字符串。例如:“单人间 - 享受您的住宿”
根据语言环境,我有相同的英语和德语数据。因此我不能使用通常的 string.split("-") 。“-”字符的 unicode 是 8212(dec) 或 x2014(hex)。如何使用 unicode 拆分字符串?