我有一些不同语言的文本,并且可能存在一些拼写错误或其他错误,我想检索他们自己的词汇。我一般对 NLP 没有经验,所以也许我用了一些词不当。
词汇表是指单一语言的单词集合,其中每个单词都是唯一的,并且不考虑性别、数字或时态的变化(例如think 、 thinks和think are all 考虑think)。
这是主要问题,所以让我们将其简化为一种语言的词汇检索,例如英语,并且没有错误。
我认为(至少)有三种不同的方法,也许解决方案包括它们的组合:
- 在相互关联的单词数据库中搜索。所以,我可以搜索思想(考虑动词)并阅读相关信息认为思想是思想的变化
- 通过处理变形形式来计算单词的“基本形式”(没有变形的单词)。也许它可以用词干来完成?
- 通过任何 API 使用服务。是的,我也接受这种方法,但我更愿意在本地进行
对于第一个近似值,算法没有必要区分名词和动词。例如,如果在文本中同时出现名词和动词的单词,则可以认为它在第二次匹配时已经出现在词汇表中。
我们减少了检索英文文本词汇的问题,没有错误,也没有考虑单词的标签。
关于如何做到这一点的任何想法?或者只是一些提示?
当然,如果您对这个问题也有其他限制(错误和多语言,不仅是印欧语言)的建议,他们将不胜感激。