regex - Go，正则表达式：非常具有挑战性的字符正则表达式

Question

你认为只有Regex才有可能吗？

这是我在 Go Playground 上的尝试

使用一些脏代码可以成功

我希望将扩展的韩语字符转换为完整的字母。例如，“ㅈㅗㅎㅡㄱㅂㅅㅣㅏㅏㅛㅏㅏㅊㅣㅣㅁㅁㅇㅏㅏㄴㄴㄴㅕㅕㅕㅇㅇㅎㅏㅅㅅㅔㅔㅔㅇㅇㅇㅇ”

对于不能正确呈现韩文字符的浏览器：

좋 은값 进 싸 요 아 침 안 녕 하 세 요 웬</p>

简单的部分是韩文字母只能以一个辅音+一或两个元音开头。这可以用 ( .([ㅏ-ㅣ])+) 捕获。

具有挑战性的部分是元音后面的零个或一个或最多两个可选辅音。很难的另一个原因是，在最多两个可选辅音之后，我们还有另一个不属于前一个字母的辅音，这个辅音意味着另一个新字母的开始。

如下所示：

ㄱㅏㅂㅅㅇㅣ
= ㄱㅏㅂㅅ  +  ㅇㅣ
= 값 + 이
= 값이

可以使用 if 条件和基本正则表达式捕获所有模式。但如果我有更短的版本会很好。

我的最终目标是转换“ㅈㅗㅎㅡㄱ”ㅅㅣㅆㅇㅛㅇㅏㅏㅊㅣㅁㅇㅏㅏㄴㄴㄴㄴㅕㅇㅎㅏㅏㅅㅅㅅㅅㅅㅅㅛㅇㅔㄴㅔㄴㅔㄴㅇㅇㅔㄴㅇㅇㅇㅇㅇㅇ

对于不能正确呈现韩文字符的浏览器：

좋 은값 进 싸 요 아 침 안 녕 하 세 요 웬</p>

score 2 · Accepted Answer

我不懂韩语，但听起来您可能的输入组合是：

C(Consonant) V(Vowel)
CVV
CVVC
CVVCC
CVC
CVCC

因此，捕获它的正则表达式规则（不捕获下一个单词的第一个辅音）是： CV{1,2}C{0,2}(?!V)

然后你只需要定义你的 C 和 V 字符类，例如将 V 替换为[ㅏ-ㅣ]

使用您的程序循环在字符串中找到的匹配项，并输出组合词

编辑：Go 不支持负前瞻，所以我建议执行以下操作：

还有其他方法可以解决缺少负前瞻的问题，但它可能会涉及更多代码来操作输入字符串中下一个匹配的开始位置。

此外，在定义您要查找的元音或辅音字符集时，最好使用 unicode 转义序列而不是韩语字形本身（通常，例如，\x1161），但我不确定 Go 是否支持 unicode 参考在正则表达式中...

1 回答 1