c++ - 将 CJK 音译为拉丁语——最好用 C++

Question

我正在尝试编写一个可以将 CJK 音译为拉丁语（即拼音、罗马字等）的程序。例如，您提供中文、日文或韩文文档作为输入，然后将音译版本转换为拉丁文作为输出。

我是这个领域的新手，所以请多多包涵。

显然，首先我需要检测语言的类型（中文、日文或韩文），然后再进一步。然后，据我所知，为了进行音译，我需要将文本分成单词，因为在这些语言中，单词之间没有空格。这称为分词。最后在找出我需要将它们音译成拉丁语的单词之后。

所以这是我的问题：

有很多（当然不是！最好说一些）库可以完成音译工作，因为我正在寻找 C/C++ 中的开源库，所以我找到了 Adson（仅适用于中文）和 ICU4C。从 Adson 克隆的 Git 存储库没有编译。而且我找不到简单、直接的 ICU4C 教程。如何找到有关 ICU4C 使用的教程？你知道任何其他将 CJK 音译为拉丁语的图书馆吗？如果准确率更高（~90%），我可以忘记它是用 C++ 编写的。

score 1 · Accepted Answer

ICU： http ://userguide.icu-project.org/transforms/general 中有示例，ICU 50 现在有 CJK 分词。该uconv示例可以与uconv -f utf-8 -t utf-8 -x 'Any-Latin' 通过 Any-Latin 变换之类的东西一起使用。不过，这并没有考虑到语言。

c++ - 将 CJK 音译为拉丁语——最好用 C++

1 回答 1

Related

Reference