我正在尝试对来自社交网络的帖子之间的相似性进行评分,但没有找到任何好的算法,想法?
我刚试过 Levenshtein、JaroWinkler 和其他人,但那些更习惯于比较没有情感的文本。在帖子中,我们可以看到一个文字说“我真的很喜欢狗”,而另一个文字说“我真的很讨厌狗”,我们需要将此案例归类为完全不同的案例。
谢谢
我正在尝试对来自社交网络的帖子之间的相似性进行评分,但没有找到任何好的算法,想法?
我刚试过 Levenshtein、JaroWinkler 和其他人,但那些更习惯于比较没有情感的文本。在帖子中,我们可以看到一个文字说“我真的很喜欢狗”,而另一个文字说“我真的很讨厌狗”,我们需要将此案例归类为完全不同的案例。
谢谢
啊……但是“我真的很爱狗”和“我真的很讨厌狗”是完全相似的;),都讨论了一个人对狗的感受。看来你错过了一个步骤:
如果您的算法根据其经验进行自我调整(即涉及一些学习)。然后确保为第一个分类运行算法的单独实例,并为每个子分类运行算法的新实例......如果你不要,您最终可能会遇到这样的情况,即您找到一些组,并且任何时候在相同组上运行算法时,结果几乎相同和/或根本没有任何变化。
Apache Mahout提供了很多有用的算法和聚类、分类、遗传编程、决策森林、推荐挖掘的例子。以下是 mahout 的一些文本分类示例:
我不确定哪一个最适合您的问题,但也许如果您查看它们,您会发现哪一个最适合您的特定应用程序。
我的研究是关于情感分析的,我同意 Pierre 的观点,这是一个难题,鉴于其主观性,不存在通用算法。我第一次尝试的方法之一是将句子映射到情感空间,并根据句子到情感质心的距离来决定它的情感。你可以看看它:
http://dtminredis.housing.salle.url.edu:8080/EmoLib/
上面的句子效果很好;)
您可能想看看意见挖掘和情绪分析,让您了解任务的复杂性。
简短的回答:没有“好的算法”,只有平庸的。这是一个非常困难的问题。祝你好运。