问题:
我有两个字符串,比如“Billie Jean”和“Thriller”。我需要以编程方式比较它们并找出它们的相关程度。这些都是同一位艺术家的歌曲,因此,它们应该给出比“Brad Pitt”和“Jamaican Farewell”更高的分数(概率、百分比等)。
这样做的一种方法是一个名为 WikipediaMiner 的开源 Java 工具,它使用 Wikipedia 数据转储、检查链接、描述等进行比较。
问题:
请提出一个更好的替代方案,使用任何或所有 Wikipepdia、DBpedia、Freebase 及其表亲,或结合不同的方法。我真的更喜欢可以在服务器上下载和设置的开源软件(例如 Apache Mahout),而不是付费的 Web 服务。