nlp - 使用 Word2Vec 进行主题建模

Question

我读过主题建模（从文本中提取可能的主题）最常用的技术是潜在狄利克雷分配（LDA）。

但是，我很感兴趣尝试使用 Word2Vec 进行主题建模是否是一个好主意，因为它会在向量空间中对单词进行聚类。因此，集群不能被视为主题吗？

你认为为了一些研究而遵循这种方法有意义吗？最后我感兴趣的是根据主题从文本中提取关键字。

score 11 · Accepted Answer

您可能想查看以下论文：

Dat Quoc Nguyen、Richard Billingsley、Lan Du 和 Mark Johnson。2015.使用潜在特征词表示改进主题模型。计算语言学协会会刊，卷。3，第 299-313 页。[代码]

刘杨，刘志远，蔡达成，孙茂松。2015.主题词嵌入。在第 29 届 AAAI 人工智能会议上，2418-2424。[代码]

第一篇论文将词嵌入集成到 LDA 模型和每个文档一个主题的 DMM 模型中。它报告了主题连贯性、文档聚类和文档分类任务的显着改进，特别是在小型语料库或短文本（例如推文）上。

第二篇论文也很有趣。它使用 LDA 为每个单词分配主题，然后使用 Word2Vec 来学习基于单词及其主题的词嵌入。

score 4 · Accepted Answer

有两个人试图解决这个问题。

StichFix 的 Chris Moody 提出了 LDA2Vec，CMU 的一些博士生写了一篇名为“用于具有词嵌入的主题模型的高斯 LDA”的论文，这里有代码……虽然我无法在那里获得 Java 代码来输出有意义的结果. 将 word2vec 与高斯（在计算数学时实际上是 T 分布）词主题分布一起使用是一个有趣的想法。高斯 LDA 应该能够处理训练中的词汇不足。

LDA2Vec 尝试同时训练 LDA 模型和词向量，它还允许您将 LDA 先验置于非词之上以获得真正有趣的结果。

score 0 · Accepted Answer

在 Word2Vec 中，考虑 3 个句子
“狗看到了猫”、
“狗追了猫”、
“猫爬上了树”<br> 这里我们给出输入词 'cat'，然后我们将得到输出词 'climbed '

它基于给定上下文单词（cat）的所有单词的概率。它是一个连续的词袋模型。我们将根据上下文得到与输入词相似的词。Word2Vec 仅适用于庞大的数据集。

LDA 用于从语料库中抽象主题。它不是基于上下文。因为它使用 Dirichlet 分布在主题上绘制单词并在文档上绘制主题。我们在这里面临的问题是随机性。我们每次得到不同的输出。

我们选择的技术取决于我们的要求。

nlp - 使用 Word2Vec 进行主题建模

3 回答 3

Related

Reference