问题标签 [topicmodels]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

90 问题

0 投票

6 回答

31281 浏览

r - 从 R 主题模型中的 DocumentTermMatrix 中删除空文档？

我正在使用 R 中的 topicmodels 包进行主题建模。我正在创建一个语料库对象，进行一些基本的预处理，然后创建一个 DocumentTermMatrix：

然后执行 LDA：

对 LDA() 的最终调用返回错误

我假设这意味着至少有一个文档在预处理后没有术语。有没有一种简单的方法可以从 DocumentTermMatrix 中删除不包含任何术语的文档？

我查看了 topicmodels 包的文档，发现了 removeSparseTerms 函数，该函数删除了未出现在任何文档中的术语，但没有类似的删除文档。

r lda topic-modeling topicmodels

2012-12-19T01:25:43.583

0 投票

3 回答

4954 浏览

python - 如何将令牌添加到 gensim 字典

我使用gensim从文档集合中构建字典。每个文档都是一个令牌列表。这是我的代码

我的问题是如何将新文档（令牌）添加到这本字典并更新它。我在gensim文档中搜索但没有找到解决方案

python gensim topic-modeling topicmodels

2014-06-12T07:33:21.043

0 投票

2 回答

1706 浏览

r - 您如何在 R 中规范化文档术语矩阵的行？

我有一个名为 train_dtm 的 DocumentTermMatrix，我想标准化所有文档中术语频率的频率计数。我面临的问题是生成的矩阵也应该是 DocumentTermMatrix 类型，因为我想将标准化矩阵传递给 R 中 TopicModels 包的另一个方法 LDA。

以下是我正在使用的方法：

现在，我希望对上述 documenttermmatrix 的行进行规范化。我什至尝试通过添加控制参数

但是上面的调用会抛出一个错误说

我已经编写了使用 apply() 方法规范化 train_dtm 值的方法，但它不返回 DocumentTermMatrix 类型的矩阵。

还有其他方法可以完成上述任务吗？

r tm topicmodels

2015-03-31T14:16:17.673

0 投票

1 回答

1032 浏览

r - 使用 R 中的“topicmodels”训练主题模型后的文档主题概率：gamma 还是后验（）？

下面是我使用 gibbs 采样训练 3328 个文本文件后得到的结果。我需要保存一个包含 document_topic 概率的文件。伽玛是文档主题概率吗？但是大多数数字都经过平滑处理，并且在文档主题概率方面信息量不是很大。我应该使用“后验”函数来预测训练数据上新数据的概率吗？

r topic-modeling topicmodels

2015-05-11T03:01:04.873

0 投票

0 回答

135 浏览

r - which.max(sapply, train_gibbs, logLik) 错误

因此，我通过计算来自 10 倍训练和测试集的困惑度来遵循 Grun 和 Hornik ( http://www.jstatsoft.org/v40/i13/ ) 的 10 倍交叉验证方法。但是当我创建 test_gibbs 时出现错误，这在下面的代码末尾说明。有人可以建议如何解决这个问题吗？提前致谢。

错误 where.max(sapply, train_gibbs, logLik) : 未使用的参数 (train_gibbs, logLik)

r cross-validation topic-modeling topicmodels

2015-05-11T12:01:12.070

0 投票

1 回答

232 浏览

r - 在 R 中手动指定主题模型

我有一个文本语料库，csv 文件中的每一行都唯一地指定了我感兴趣的“主题”。如果我要使用 topicmodels 包或 lda 中的 LDA 或 Gibbs 方法在该语料库上运行主题模型，如预计我会在每个“文档”中获得多个主题（我的 CSV 中的一行文本，我先验地定义为我感兴趣的独特主题）。我知道这是主题模型的算法和词袋假设的结果。

然而我很好奇的是这个

1) R 中是否有一个预制包，专为用户使用经验词分布指定主题而设计？也就是说，我不希望对主题进行估计；我想告诉 R 主题是什么。我想我可以使用正确数量的主题运行主题模型，使用该对象的结构，然后覆盖其内容。我只是希望有一种更简单或更明显的方法，而我现在还没有看到。

想法？

编辑：添加 - 我只是想到了 alpha 和 beta 参数可以控制 LDA 建模算法中的主题/术语分布。我可以使用哪些设置来强制模型在每个文档中只找到 1 个主题？或者是否有允许这种情况发生的设置？

如果这些看起来像我理解的愚蠢问题 - 我对这个特定领域很陌生，我发现它很吸引人。

r tm lda topicmodels

2015-06-15T21:47:08.933

0 投票

1 回答

1237 浏览