2

我主要只是在寻找有关如何从分散的、非规范化的、完全开放的用户提交的标签到通过将它们组合成他们称为“集群”的语义组来开始理解所有这些的方法的讨论。

是否需要实际的人来弄清楚人们所使用的标签的实际含义,还是可以简单地通过自动分析标签一起出现的频率来完成?

那种东西。随意详细阐述:)(另外,如果这已在其他地方讨论过,我很想听听)。

4

2 回答 2

3

阅读这篇文章:自动标签聚类。它很好地概述了现有方法并描述了标签聚类算法。

于 2009-06-26T04:24:10.733 回答
1

智能网络算法(曼宁)(特别是第 4 章)和 O'Reilly 的一本类似标题的书涵盖了聚类算法。Manning 的书从简单的 SQL 方法开始,然后转向 K-means、ROCK 和 DBSCAN。它比只关注标签更通用,但在这种情况下很容易应用。代码以 Java 呈现,但很容易适应 Ruby(有时比使 Java 代码适应您的问题更容易)。

第 5 章介绍了关于构建拓扑的分类,并讨论了贝叶斯算法。

于 2009-10-30T21:57:45.273 回答