目标是评估大型文本语料库中术语之间的语义相关性,例如,“police”和“crime”应该比“police”和“mountain”具有更强的语义相关性,因为它们倾向于在相同的上下文中同时出现。
我读过的最简单的方法是从语料库中提取IF-IDF信息。
很多人使用潜在语义分析来寻找语义相关性。
我遇到了 Lucene 搜索引擎: http: //lucene.apache.org/
你认为提取IF-IDF合适吗?
在技术和软件工具方面(偏爱 Java),你会建议我做什么?
提前致谢!
穆龙