我知道我的问题有点笼统和广泛,但我写它是为了根据你的想法缩小范围!
假设我们有一本不完整的非常古老的语言词典,我们想要完成它!有很多文件包含句子。
首先,我们用最接近这种旧语言的语言填充字典。大多数单词与字典 100% 匹配,但有些单词在不匹配的字母中会受到一些惩罚!
是否有任何机器学习或统计方法通过使用每个文档中每个字母的频率来分配某种后验错误概率来表示:
1)不匹配的字母是不正确的,通过更正它,您不需要将这个词添加到您的字典中!
或者
2)字母,哪个不匹配是足够有把握的,你应该把这个词算作字典中的一个新词!
再次抱歉提出一般性问题!