0

我有一个大约 6GB 大小的文档语料库,其中大部分是用户在移动平台上生成的内容。由于该语料库的来源性质,它充斥着拼写错误、缩写和截断的单词。有没有办法可以将这些单词自动更正为最接近的英语单词?

4

1 回答 1

2

看到你用机器学习标记了你的问题,这可能看起来很有趣:

http://norvig.com/spell-correct.html

这是一本引人入胜的读物。另一方面,如果你不想修补,一个更好的可能是附魔,看看

https://pypi.org/project/pyenchant/

于 2014-03-18T23:30:03.540 回答