3

在简短的非结构化文档中发现主题的最佳模型是什么,例如。短信或推特信息?潜在狄利克雷分配?

4

3 回答 3

5

LDA 是可用于主题建模的最强模型之一,但将其应用于非常短的文本(如 Twitter/微博帖子)可能需要一些额外的工作。本文的作者讨论了 LDA 和替代模型,并建议在对其运行主题模型之前聚合多个帖子。

[注意术语:“主题发现”实际上是监督文档分类的旧同义词。]

于 2011-10-07T09:21:09.570 回答
0

由于数据稀疏性和此类文本中的有限上下文,将主题模型(例如 LDA)应用于短文本(例如 Tweets)更具挑战性。一种方法是在训练 LDA 之前将短文本组合成长伪文档。另一种简单的方法是假设每个文档只有一个主题。

每个文档一个主题的Dirichlet Multinomial Mixture (DMM) 模型(unigrams 的混合)在对短文本或推文的主题建模方面优于 LDA 主题模型。您可以在jLDADMM包中找到 LDA 和 DMM 模型的实现。jLDADMM 还提供文档聚类评估来比较这些主题模型。

于 2016-03-23T13:45:37.800 回答
-1

我认为一切都取决于数据。所以你还应该尝试纯 TFIDF、LSI、LDA、kmeans、层次聚类来检测有用的短语、主题。

于 2011-10-07T11:03:42.370 回答