spell-checking - 在编写拼写检查器时我们应该考虑哪些事项？

Question

我想写一个非常简单的拼写检查器。拼写检查器将尝试将输入单词与字典中的等效单词进行匹配。

可以做些什么来找到那些“等价词”？可以对两个单词进行什么分析以将它们标记为等效？

score 5 · Accepted Answer

在投入太多试图解开之前，我首先要看一下已经存在的实现，比如Aspell或netspell，主要有两个原因

score 3 · Accepted Answer

很大程度上取决于您的用例。例如：

score 1 · Accepted Answer

编辑距离是编写拼写检查器所需的理论。你还需要一本字典。大多数 UNIX 系统都带有已经为您的语言环境安装的字典。

score 1 · Accepted Answer

我刚刚完成了一个拼写检查器，并使用了以下组合来获取“建议”单词的列表

“拼写错误”单词的语音散列以查找相同字典散列真实单词的散列（对于 java，请查看 Apache Commons Codec 以获取合适的库）。可以预先计算字典文件的语音散列。
编辑输入和电位之间的距离（这相当昂贵，因此您需要首先使用语音哈希之类的东西来减少列表，假设更高的容量负载 - 在我的情况下，是基于服务器的拼写检查）
一个已知的常见拼写错误列表，例如receive 与receive。
英语中最常见单词的有序列表

本质上，我主要根据编辑距离和共性对每个潜在单词进行加权。例如，如果单词概率是一个百分比，那么

weight = edit-distance *  100 / probability

（权重越小越好）

但是我也用已知的常见拼写错误覆盖任何结果（即这些总是浮动到建议的结果顶部）。

可能有更好的方法，但这工作得很好。

您可能还希望忽略所有大写单词、首字母等，因此选择要忽略的内容也是需要考虑的事情。

score 0 · Accepted Answer

0

在 linux/unix 下你有 ispell。为什么要彻底改造。

于 2009-04-30T13:43:31.873 回答

5 回答 5