我正在用 Java 为 unicode 文本编写正则表达式。但是,对于我正在使用的特定脚本 - 梵文 (0900 - 097F),单词边界存在问题。\b 匹配依赖元音的字符(如 093E-094C),因为它们被视为空格字符。
示例:假设我有字符串:“कमल कमाल कम्हल कम्हाल” 请注意,第二个单词中的“मा”是由 म 和 ा(识别为空格字符)组合而成。最后一句话也是如此。这导致 \b 将 'कमाल' 中的 'ल' 与正则表达式 \b\w\b 匹配,根据语言,这不正确。
我希望这个例子有帮助。
我可以编写一个行为类似于 \b 的正则表达式,但它与某些字符不匹配吗?任何反馈将不胜感激。