我一直在尝试使用以下 Sim-metrics 库:
<dependency>
<groupId>com.github.mpkorstanje</groupId>
<artifactId>simmetrics-core</artifactId>
<version>4.1.0</version>
</dependency>
到目前为止,我正在使用以下方法计算 Jaro Winkler:
StringMetric sm = StringMetrics.jaroWinkler();
res = sm.compare("Harry Potter", "Potter Harry");
System.out.println(res);
0.43055558
和余弦相似度:
sm = StringMetrics.overlapCoefficient();
res = sm.compare("The quick brown fox", "The slow brawn fur");
System.out.println(res);
0.25
但根据https://asecuritysite.com/forensics/simstring
jaro-winkler 应该是 0,重叠系数应该是 100。这甚至是使用这个库的正确方法吗?什么是正确的调用,比如说如果我想运行这两个指标来匹配我从 IMDB 获得的一个列表中的电影,我打算比较两个集合中的标题并获得两个分数的平均值并为两部电影的演员阵容。谢谢