machine-learning - 拼写检查器使用语言模型

Question

我寻找可以使用语言模型的拼写检查器。

我知道有很多很好的拼写检查器，例如Hunspell，但是我认为它与上下文无关，所以它只是基于标记的拼写检查器。

例如，

I lick eating banana

因此，在基于标记的级别，根本没有拼写错误，所有单词都是正确的，但句子中没有任何意义。然而，“智能”拼写检查器会识别出“lick”实际上是正确书写的单词，但可能是作者的意思是“like”，然后句子中有含义。

我在特定领域有一堆正确书写的句子，我想训练“智能”拼写检查器来识别拼写错误并学习语言模型，这样即使认为“舔”写得正确，它也会识别出来，但是作者的意思“喜欢”。

我没有看到 Hunspell 有这样的功能，你能推荐任何其他的拼写检查器，可以这样做。

score 1 · Accepted Answer

请参阅Raphael Mudge的“校对软件服务的设计”。他描述了他的方法的数据源（维基百科、博客等）和算法（基本上是比较概率）。该系统的源代码After the Deadline可用，但不再积极维护。

score 0 · Accepted Answer

一种方法是通过基于字符的语言模型（而不是基于单词的 n-gram 模型）。请参阅我对找出在不良用户生成的内容中添加标点符号的位置的回答？. 您描述的问题不同，但您可以应用类似的解决方案。而且，正如我在那里指出的那样，LingPipe 教程是开发概念验证实现的一种非常简单的方法。

一个重要的区别——为了捕捉更多的上下文，你可能想要训练一个比我推荐的用于标点恢复的 n-gram 模型更大的 n-gram 模型。也许15-30个字符？你必须在那里做一些实验。

2 回答 2