我正在为基于 Web 的 WYSIWYG 编辑器实现拼写检查功能。我目前正在使用 Damerau-Levenshtein 距离算法来生成拼写建议列表。这一切都很好,但我很好奇如何改进功能。
具体来说,我的实现目前不处理连词。例如,我希望能够检测“areyou”并建议“are you”。我想我可以通过在可能看起来的片段中将潜在的连词分开并测试两半来做到这一点。由于所有英语单词都必须至少有一个元音,我想我可以寻找元音来帮助我决定在哪里将单词分开。
Damerau-Levenshtein 距离算法非常有用。很明显,其他人在这方面的思考比我多得多。我应该考虑使用类似的聪明算法来检测连词,还是我已经走在正确的轨道上?