我正在根据这篇论文在 Java 中实现一个可读性公式。
我已经到了必须计算两个或多个单词的概念和关系相似性的地步。
他们说:
我们使用潜在语义分析 (LSA) 工具来计算单词相似度。LSA 可以从单词文档共现矩阵中获取语义信息,包括相似性。在扫描整个语料库的固定大小的移动窗口中计算单词/术语共现。使用 +-1 和 +-4 窗口大小的共现模型分别被认为是关系相似性和概念语义模型。
我试图查看 LSA 的一些实现,比如这个,但是找不到一种直接的方法来获得我想要的东西。
我应该有一个基于单词的矩阵,所以我尝试使用 WS4J 库来计算基于两个字符串数组的矩阵。
WS4J 也有一个方法calcRelatednessOfWords()
,但它得到的结果与论文中显示的不匹配。
有没有提供我想要的图书馆?或者谁能指出我正确的方向?