我正在尝试编写一个可以将 CJK 音译为拉丁语(即拼音、罗马字等)的程序。例如,您提供中文、日文或韩文文档作为输入,然后将音译版本转换为拉丁文作为输出。
我是这个领域的新手,所以请多多包涵。
显然,首先我需要检测语言的类型(中文、日文或韩文),然后再进一步。然后,据我所知,为了进行音译,我需要将文本分成单词,因为在这些语言中,单词之间没有空格。这称为分词。最后在找出我需要将它们音译成拉丁语的单词之后。
所以这是我的问题:
- 有很多(当然不是!最好说一些)库可以完成音译工作,因为我正在寻找 C/C++ 中的开源库,所以我找到了 Adson(仅适用于中文)和 ICU4C。从 Adson 克隆的 Git 存储库没有编译。而且我找不到简单、直接的 ICU4C 教程。如何找到有关 ICU4C 使用的教程?你知道任何其他将 CJK 音译为拉丁语的图书馆吗?如果准确率更高(~90%),我可以忘记它是用 C++ 编写的。