主题建模识别文档集合中的主题分布,从而有效地识别集合中的集群。那么是否可以说主题建模是一种进行文档聚类的技术?
问问题
3806 次
2 回答
12
主题与文档集群有很大不同,毕竟主题不是由文档组成的。
然而,这两种技术确实是相关的。我相信主题建模是确定文档相似程度的可行方法,因此是文档聚类的可行方法。
在将每个文档表示为主题分布(实际上是一个向量)时,主题建模技术将特征维度从出现(在语料库中)的不同单词的数量减少到主题的数量。可以使用余弦度量和许多其他度量来计算文档的主题分布之间的相似性,这些度量反映了文档本身在它们所涵盖的主题/主题方面的相似性。基于这种量化的相似性度量,可以应用许多聚类算法对文档进行分组。
从这个意义上说,我认为主题建模是一种进行文档聚类的技术是正确的。
于 2013-03-24T12:49:30.220 回答
3
聚类和分类之间的关系与主题建模和多标签分类之间的关系非常相似。
在单标签多类分类中,我们为每个文档分配一个标签。在聚类中,我们将每个文档放在一个组中。事实是,我们无法像定义标签那样提前定义集群。如果我们忽略这个事实,分组和标签本质上是一回事。
然而,在现实世界的问题中,平面分类是不够的。文档通常与多个类别/类相关。因此,我们利用了多标签分类。现在,我们可以将主题建模视为多标签分类的无监督版本,因为我们可以将每个文档放在多个组/主题下。在这里,我再次忽略了我们无法提前决定将哪些主题用作标签的事实。
于 2017-07-09T22:47:22.223 回答