我正在写一个字典应用程序。如果用户键入 Unicode 字符,我想检查该字符是哪种语言。
例如
字 - returns ['zh', 'ja', 'ko']
العربية - returns ['ar']
a - returns ['en', 'fr', 'de'] //and many more
й - returns ['ru', 'be', 'bg', 'uk']
我搜了一下发现可以用CLDR https://stackoverflow.com/a/6445024/41948
或 Google API Python - 我可以检测 unicode 字符串语言代码吗?
但就我而言
- 查找大型charmap db 似乎需要大量存储和内存
- 调用 API 太慢,而且需要网络连接
- 不需要非常准确。只有大约 80% 的正确率是可以接受的
- 简单快速是主要要求
- 只覆盖 UCS2 BMP 字符是可以的。
有小费吗?
我需要在 Python 和 Javascript 中使用它。谢谢!