java - 计算文本之间相似度的算法

Question

我正在尝试对来自社交网络的帖子之间的相似性进行评分，但没有找到任何好的算法，想法？

我刚试过 Levenshtein、JaroWinkler 和其他人，但那些更习惯于比较没有情感的文本。在帖子中，我们可以看到一个文字说“我真的很喜欢狗”，而另一个文字说“我真的很讨厌狗”，我们需要将此案例归类为完全不同的案例。

谢谢

score 4 · Accepted Answer

啊……但是“我真的很爱狗”和“我真的很讨厌狗”是完全相似的；），都讨论了一个人对狗的感受。看来你错过了一个步骤：

如果您的算法根据其经验进行自我调整（即涉及一些学习）。然后确保为第一个分类运行算法的单独实例，并为每个子分类运行算法的新实例......如果你不要，您最终可能会遇到这样的情况，即您找到一些组，并且任何时候在相同组上运行算法时，结果几乎相同和/或根本没有任何变化。

更新

Apache Mahout提供了很多有用的算法和聚类、分类、遗传编程、决策森林、推荐挖掘的例子。以下是 mahout 的一些文本分类示例：

我不确定哪一个最适合您的问题，但也许如果您查看它们，您会发现哪一个最适合您的特定应用程序。

score 2 · Accepted Answer

我的研究是关于情感分析的，我同意 Pierre 的观点，这是一个难题，鉴于其主观性，不存在通用算法。我第一次尝试的方法之一是将句子映射到情感空间，并根据句子到情感质心的距离来决定它的情感。你可以看看它：

上面的句子效果很好；）

score 1 · Accepted Answer

您可能想看看意见挖掘和情绪分析，让您了解任务的复杂性。

简短的回答：没有“好的算法”，只有平庸的。这是一个非常困难的问题。祝你好运。