我将不得不在 Python 中执行类似拼写检查的操作,如下所示:
我有一个巨大的单词列表(我们称之为词典)。我现在得到了一些文本(我们称之为样本)。我必须在词典中搜索每个示例单词。如果我找不到它,则该示例词是错误的。
简而言之 - 强力拼写检查器。然而,在词典中线性搜索每个样本词势必会很慢。有什么更好的方法来做到这一点?
复杂的因素是样本和词典都不是英文的。它是一种语言,而不是 26 个字符,可以有超过 300 个字符 - 以 Unicode 存储。
任何算法/数据结构/并行化方法的建议都会有所帮助。以低于 100% 的准确度为代价的高速算法将是完美的,因为我不需要 100% 的准确度。我知道 Norvig 的算法,但它似乎是特定于英语的。