我正在寻找一个包含所有汉字普通话发音的 bopomofo 和/或拼音的数据集。此外,我需要可以复制到我自己的代码库中的开源数据集。
问问题
1929 次
2 回答
4
听起来您可能正在寻找 Unihan 数据库。Unihan 数据库由 Unicode 联盟维护。
Unihan 数据库是 Unicode 联盟关于 Unicode 标准中包含的 CJK 统一表意文字的集体知识的存储库。它包含映射数据以允许在其他编码字符集之间进行转换,以及附加信息以帮助实现对使用汉表意文字的各种语言的支持。
例如,这里是爱</a>的数据。
这里是Unihan数据库的组织和内容的描述。请务必阅读以了解数据所指的内容。
如果这是您想要的信息,您可以下载包含所有这些数据的 ZIP 存档。
Unihan 数据库没有 Bopomofo(注音)发音,但它有拼音读数。从拼音转换到注音很简单;有很多在线工具可以为您做到这一点。
至于许可问题,Unihan 数据库数据文件有自由版权声明。因此,您不应该在自己的软件中使用该数据时遇到任何问题。
于 2014-02-15T12:55:50.163 回答
0
这有点晚了,但我去年也在寻找同样的东西,最后根据一堆不同的数据集编译了我自己的字符/bopomofo 数据库。我已经在这件事上做了足够多的工作来彻底称它为我自己的,所以你应该检查一下!它是我按 bopomofo 排序的 rubygem 的一部分(我有一个不允许我更改数据库排序设置的系统)https://github.com/nallan/ab-chi
于 2014-03-04T17:40:03.913 回答