我主要只是在寻找有关如何从分散的、非规范化的、完全开放的用户提交的标签到通过将它们组合成他们称为“集群”的语义组来开始理解所有这些的方法的讨论。
是否需要实际的人来弄清楚人们所使用的标签的实际含义,还是可以简单地通过自动分析标签一起出现的频率来完成?
那种东西。随意详细阐述:)(另外,如果这已在其他地方讨论过,我很想听听)。
我主要只是在寻找有关如何从分散的、非规范化的、完全开放的用户提交的标签到通过将它们组合成他们称为“集群”的语义组来开始理解所有这些的方法的讨论。
是否需要实际的人来弄清楚人们所使用的标签的实际含义,还是可以简单地通过自动分析标签一起出现的频率来完成?
那种东西。随意详细阐述:)(另外,如果这已在其他地方讨论过,我很想听听)。
阅读这篇文章:自动标签聚类。它很好地概述了现有方法并描述了标签聚类算法。
智能网络算法(曼宁)(特别是第 4 章)和 O'Reilly 的一本类似标题的书涵盖了聚类算法。Manning 的书从简单的 SQL 方法开始,然后转向 K-means、ROCK 和 DBSCAN。它比只关注标签更通用,但在这种情况下很容易应用。代码以 Java 呈现,但很容易适应 Ruby(有时比使 Java 代码适应您的问题更容易)。
第 5 章介绍了关于构建拓扑的分类,并讨论了贝叶斯算法。