我正在使用 WS4J API 来计算单词之间的语义相似度:
ILexicalDatabase db = new NictWordNet();
RelatednessCalculator lin = new Lin(db);
RelatednessCalculator wup = new WuPalmer(db);
String w1 = "science";
String w2 = "university";
System.out.println(lin.calcRelatednessOfWords(w1, w2));
System.out.println(wup.calcRelatednessOfWords(w1, w2));
问题是这个 API 依赖于以下配置文件,这些配置文件必须放在项目目录中(我/resources
用于此目的):
jaw.jaw.conf
similarity.conf
wordnet folder
此外,很遗憾这个库在 Maven 存储库中不可用。
有什么办法可以避免将上述文件放入我本地项目的文件夹中?这些文件占用超过 100Mb....
我还检查了库 DISCO,但它似乎没有 WS4J 强大。