问题标签 [topicmodels]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

90 问题

0 投票

1 回答

706 浏览

r - 使用 LDA 预测主题

我正在尝试从使用 R 的“lda”包构建的适合中提取主题分配。我创造了一个合适的：

...并希望提取每个主题-文档分配的概率，或者只是每个文档最可能的主题。使用“topicmodel”包，我可以调用

得到那个（就像在带有主题模型的 LDA 中，我怎样才能看到不同文档属于哪些主题？）

我怎样才能用'lda'得到同样的结果？

r lda topic-modeling topicmodels

2015-09-29T11:52:17.060

0 投票

1 回答

564 浏览

r - 如何将只有一个元素的“列表”类更改为 R 中的对象？

我使用以下代码创建了一个主题模型列表，其中主题的数量从 26 到 35 不等，以 1 为单位：

当我调用 best.model 时，我得到：

然后我尝试将每个主题模型提取到单独的对象中：

但是，当我调用每个模型的类时，我得到：

如何从初始 best.model 列表中提取每个元素，并使每个元素成为我可以轻松操作的对象？

r list object topicmodels

2015-10-06T18:33:51.250

0 投票

0 回答

735 浏览

java - 如何获得槌中主题的概率分布？

使用槌我可以获得特定数量的主题及其单词。如何确保主题词具有概率分布（即总和为一）？

例如，如果我按以下方式运行它，我如何使用 mallet 给出的输出来确保主题 0 的主题词的概率加起来为 1？

java machine-learning topic-modeling mallet topicmodels

2015-10-21T05:39:52.343

0 投票

2 回答

2515 浏览

r - DocumentTermMatrix 需要有一个词频加权错误

我正在尝试在相当大的数据集上使用 topicmodels 包中的 LDA() 。在尝试了所有方法来修复以下错误“在 nr * nc 中：整数溢出产生的 NAs”和“输入矩阵的每一行都需要包含至少一个非零条目”之后，我最终遇到了这个错误。

r lda topicmodels

2015-11-18T01:32:40.340

0 投票

0 回答

568 浏览

r - 使用 mallet 包对新文本进行分类

有人知道是否有办法使用 R 包将新文本数据分类为主题mallet？

这个包的一般例程是：

但是我找不到任何方法来使用预先训练的模型对新数据进行分类。替代方法是使用该topicmodels软件包或通过命令行运行Mallet 。这两个选项都是合理的（尽管我必须说我倾向于使用 Mallet 获得更令人信服的结果），但是如果我已经使用 R 包训练了一个模型mallet并且我不想更改主题，找到一种方法来使用包对数据进行分类mallet会很有帮助。

r lda topic-modeling mallet topicmodels

2015-12-08T07:51:17.650

0 投票

1 回答

94 浏览

r - Windows 中的 R 无法处理某些字符

我在 Linux 中执行了 LDA，并且在主题 2 中没有得到像“ø”这样的字符。但是，当在 Windows 中运行时，它们会显示出来。有谁知道如何处理这个？我使用了包quanteda和topicmodels.

编辑：

数据：https ://www.dropbox.com/s/tdr9yok7tp0pylz/technology201501.csv

代码是这样的：

r windows lda topicmodels quanteda

2016-01-13T03:17:56.153

0 投票

1 回答

2031 浏览

r - 带有 R 的 topicmodels 包的 LDA，我如何获得每个术语的主题概率？

我正在为 LDA 使用 topicmodels 包。我想创建一个可视化，显示每个主题的相关性或非相关性。我设想一组词是主题 1 独有的，但有一些共享的关键字连接到另一个主题。这里的任何建议都会很棒。接着说：

为此，我需要知道每个主题的每个术语概率。我如何通过 topicmodels 包获得这个？我可以通过以下方式查看条款：

但我不知道如何获得价值。想法？

r lda topicmodels

2016-01-25T22:16:28.490

0 投票

1 回答

3152 浏览

r - 如何在 R 中做 LDA

我的任务是在亚马逊评论的数据集上应用 LDA 并获得 50 个主题

我已经在向量中提取了评论文本，现在我正在尝试应用 LDA

我已经创建了 dtm

但是当我尝试这样做时，我收到以下错误：

lda <- LDA（矩阵，30）

搜索了一些解决方案并使用了 slam 来

仍然收到相同的错误

我对此很陌生，有人可以帮助我或建议我一些参考资料来研究这个。这将非常有帮助

我的原始矩阵中没有空行，它只包含一列包含评论

r lda topicmodels

2016-02-08T04:15:15.687

0 投票

1 回答

548 浏览

r - Quanteda with topicmodels：删除的停用词出现在结果中（中文）

我的代码：

代码有效，我看到了结果。以下是输出示例：

这是问题所在。我所有的帖子都被分割了（中文的必要预处理步骤）并删除了停用词。尽管如此，主题模型会返回包含已删除的单字符停止词的主题。如果我打开原始 .txt 文件并对给定的单字符停用词执行 ctrl-f，则不会返回任何结果。但是这些术语出现在 R 代码返回的主题中，可能是因为单个字符作为其他多字符单词的一部分出现。例如，就是介词，被视为停用词，但成就意味着“成功”。

与此相关，某些术语是分裂的。例如，我正在研究的一个事件中提到了俄罗斯总统普京（“葫芦”）。然而，在主题模型结果中，我看到“普”和“京”的单独术语条目，而“不同”的条目则没有。（参见输出主题 2 中的第 10 行和第 11 行，与原始文本中的第一个单词进行比较。）

这里是否发生了额外的标记化步骤？

编辑：修改为可重现。出于某种原因，它不会让我发布，直到我也删除了我的介绍性段落。

r topic-modeling topicmodels quanteda

2016-03-24T21:16:19.677

0 投票

1 回答

2053 浏览

r - 将单词植入 R 中的 LDA 主题模型

我有一个新闻文章数据集，这些文章是根据他们使用术语“欧洲怀疑论”或“欧洲怀疑论”的标准收集的。我一直在使用lda包（dfm内置矩阵quanteda）运行主题模型，以确定这些文章的主要主题；但是，我感兴趣的词没有出现在任何主题中。因此，我想将这些词植入模型中，但我不确定该怎么做。

我看到这个包topicmodels允许一个叫做种子词的参数，它“可以指定为一个matrix或一个对象类simple_triplet_matrix”，但没有其他说明。似乎 asimple_triplet_matrix只接受整数，而不是字符串 - 有谁知道我会在模型中植入“euroscepticism”和“eurosceptic”这两个词？

这是代码的简化版本：

r lda quanteda topicmodels

2016-06-09T13:02:33.557

1 2 3 4 5 6 7 8 9 10

问题标签 [topicmodels]

Reference