我对词干有些熟悉,但是我被指定用于项目的词干库在我想查找相关词的情况下效果不佳,例如如果我对其中任何一个进行查询:
“牙科”、“牙医”、“牙科”
我应该为其他人找一场比赛。我一直在研究这个,我正在学习我什至不知道存在的词性,比如 pertainyms 和 troponyms 所以我想知道是否没有一个图书馆可以在所有这些之间进行映射可以返回我正在寻找的那种匹配的不同词性?
我一直在寻找这个,并没有找到很多我能理解的东西。我可能不知道正确的术语等,如果有人能指出我正确的方向,我将不胜感激。
看看WordNet。WordNet 是一个有组织的单词和概念本体,带有用于单词之间各种类型关系的链接。我不确定它是否会有你想要的关系,但这可能是一个好的开始。各种编程语言中有许多接口(我使用过的 Java 和 Python;可能还有更多)。
IR 中常见的一种方法是对索引和查询本身中的所有单词进行词干处理。意思是,包含单词“dentistry”的文档将被提取并作为“dentist”存储在索引中。关键字“dental”也被称为“dentist”,从而在索引中匹配它。