nlp - 主题发现/发现的最佳模型

Question

在简短的非结构化文档中发现主题的最佳模型是什么，例如。短信或推特信息？潜在狄利克雷分配？

score 5 · Accepted Answer

LDA 是可用于主题建模的最强模型之一，但将其应用于非常短的文本（如 Twitter/微博帖子）可能需要一些额外的工作。本文的作者讨论了 LDA 和替代模型，并建议在对其运行主题模型之前聚合多个帖子。

[注意术语：“主题发现”实际上是监督文档分类的旧同义词。]

score 0 · Accepted Answer

由于数据稀疏性和此类文本中的有限上下文，将主题模型（例如 LDA）应用于短文本（例如 Tweets）更具挑战性。一种方法是在训练 LDA 之前将短文本组合成长伪文档。另一种简单的方法是假设每个文档只有一个主题。

每个文档一个主题的Dirichlet Multinomial Mixture (DMM) 模型（unigrams 的混合）在对短文本或推文的主题建模方面优于 LDA 主题模型。您可以在jLDADMM包中找到 LDA 和 DMM 模型的实现。jLDADMM 还提供文档聚类评估来比较这些主题模型。

score -1 · Accepted Answer

我认为一切都取决于数据。所以你还应该尝试纯 TFIDF、LSI、LDA、kmeans、层次聚类来检测有用的短语、主题。

3 回答 3