非拉丁字母语言的真实世界用户生成文本通常不是规范形式,而是translit、shlyokavitsa、arabizi、 pinyin 等。语言检测软件开始巧妙地处理它,但通常它不起作用,即使它在技术上相当微不足道。
是否有一个语言检测系统可以很好地处理这些非正式的拉丁化?(理想情况下是 Python 库,但任何语言或服务都会很有趣。)
Yandex、Microsoft 和顶级 Python lang id 库,如langid,在这方面一无所获。我知道两个中途的工作,都来自谷歌:
- CLD,它是Chrome 的一部分
-谷歌翻译 API
除了只识别一些顶级语言的转译之外,由于各种原因(准确性、性能、价格...)
对于印地语、波斯语、汉语、阿拉伯语和俄语等主要语言以及所有其他不是用拉丁字母书写但通常在线拉丁化(罗马化)的语言来说,这是一个主要问题。