如果我有给定的文本(无论是长文本还是短文本),您通常使用哪些方法检测它是用哪种语言编写的?
很清楚:
- 你需要一个训练语料库来训练你使用的模型(例如神经网络,如果使用的话)
我最容易想到的是:
- 检查文本中使用的字符(例如,平假名仅用于日语,元音变音可能仅用于欧洲语言,ç 用于法语、土耳其语……)
- 将检查增加到两个或三个字母对以查找语言的特定组合
- 查找字典以检查哪些单词出现在哪种语言中(可能只有没有词干,因为词干取决于语言)
但我想还有更好的方法可以走。我不是在寻找现有的项目(这些问题已经得到解答),而是在寻找像 Hidden-Markov-Models、Neural Networks 之类的方法……任何可能用于此任务的方法。