我的问题介绍:用户可以搜索术语,RitaWordNet 提供了一个名为 getSenseIds() 的方法来获取相关的感官。到目前为止,我正在使用具有不同算法来定义距离的 WS4J(Java 的 WordNet 相似性, http://code.google.com/p/ws4j/ )。搜索“用户”有以下结果:
- 用户
- 剥削者
- 吸毒者
通过比较 WS4J 中的两个术语(我假设使用 targetWord?)来测量 Lin 距离:
- 之间的相似性:用户和:用户= 1.7976931348623157E308
- 相似度:用户和:explorer = 0.1976958835785797
我想向最终用户返回一个建议,即“用户”意义是最相关/正确的答案,但问题是这取决于句子的其余部分。
例如:“老人是公共交通工具的常客”,“年轻人在学习 NLP 时变成了吸毒者..”。
我假设 senserelate 项目包含我缺少的东西。在我的搜索过程中也找到了这个线程: word disambiguation algorithm (Lesk algorithm)
希望有人得到我的问题:)