我读过主题建模(从文本中提取可能的主题)最常用的技术是潜在狄利克雷分配(LDA)。
但是,我很感兴趣尝试使用 Word2Vec 进行主题建模是否是一个好主意,因为它会在向量空间中对单词进行聚类。因此,集群不能被视为主题吗?
你认为为了一些研究而遵循这种方法有意义吗?最后我感兴趣的是根据主题从文本中提取关键字。
我读过主题建模(从文本中提取可能的主题)最常用的技术是潜在狄利克雷分配(LDA)。
但是,我很感兴趣尝试使用 Word2Vec 进行主题建模是否是一个好主意,因为它会在向量空间中对单词进行聚类。因此,集群不能被视为主题吗?
你认为为了一些研究而遵循这种方法有意义吗?最后我感兴趣的是根据主题从文本中提取关键字。
您可能想查看以下论文:
Dat Quoc Nguyen、Richard Billingsley、Lan Du 和 Mark Johnson。2015.使用潜在特征词表示改进主题模型。计算语言学协会会刊,卷。3,第 299-313 页。[代码]
刘杨,刘志远,蔡达成,孙茂松。2015.主题词嵌入。在第 29 届 AAAI 人工智能会议上,2418-2424。[代码]
第一篇论文将词嵌入集成到 LDA 模型和每个文档一个主题的 DMM 模型中。它报告了主题连贯性、文档聚类和文档分类任务的显着改进,特别是在小型语料库或短文本(例如推文)上。
第二篇论文也很有趣。它使用 LDA 为每个单词分配主题,然后使用 Word2Vec 来学习基于单词及其主题的词嵌入。
有两个人试图解决这个问题。
StichFix 的 Chris Moody 提出了 LDA2Vec,CMU 的一些博士生写了一篇名为“用于具有词嵌入的主题模型的高斯 LDA”的论文,这里有代码……虽然我无法在那里获得 Java 代码来输出有意义的结果. 将 word2vec 与高斯(在计算数学时实际上是 T 分布)词主题分布一起使用是一个有趣的想法。高斯 LDA 应该能够处理训练中的词汇不足。
LDA2Vec 尝试同时训练 LDA 模型和词向量,它还允许您将 LDA 先验置于非词之上以获得真正有趣的结果。
在 Word2Vec 中,考虑 3 个句子
“狗看到了猫”、
“狗追了猫”、
“猫爬上了树”<br> 这里我们给出输入词 'cat',然后我们将得到输出词 'climbed '
它基于给定上下文单词(cat)的所有单词的概率。它是一个连续的词袋模型。我们将根据上下文得到与输入词相似的词。Word2Vec 仅适用于庞大的数据集。
LDA 用于从语料库中抽象主题。它不是基于上下文。因为它使用 Dirichlet 分布在主题上绘制单词并在文档上绘制主题。我们在这里面临的问题是随机性。我们每次得到不同的输出。
我们选择的技术取决于我们的要求。