问题标签 [topicmodels]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
706 浏览

r - 使用 LDA 预测主题

我正在尝试从使用 R 的“lda”包构建的适合中提取主题分配。我创造了一个合适的:

...并希望提取每个主题-文档分配的概率,或者只是每个文档最可能的主题。使用“topicmodel”包,我可以调用

得到那个(就像在带有主题模型的 LDA 中,我怎样才能看到不同文档属于哪些主题?

我怎样才能用'lda'得到同样的结果?

0 投票
1 回答
564 浏览

r - 如何将只有一个元素的“列表”类更改为 R 中的对象?

我使用以下代码创建了一个主题模型列表,其中主题的数量从 26 到 35 不等,以 1 为单位:

当我调用 best.model 时,我得到:

然后我尝试将每个主题模型提取到单独的对象中:

但是,当我调用每个模型的类时,我得到:

如何从初始 best.model 列表中提取每个元素,并使每个元素成为我可以轻松操作的对象?

0 投票
0 回答
735 浏览

java - 如何获得槌中主题的概率分布?

使用槌我可以获得特定数量的主题及其单词。如何确保主题词具有概率分布(即总和为一)?

例如,如果我按以下方式运行它,我如何使用 mallet 给出的输出来确保主题 0 的主题词的概率加起来为 1?

0 投票
2 回答
2515 浏览

r - DocumentTermMatrix 需要有一个词频加权错误

我正在尝试在相当大的数据集上使用 topicmodels 包中的 LDA() 。在尝试了所有方法来修复以下错误“在 nr * nc 中:整数溢出产生的 NAs”和“输入矩阵的每一行都需要包含至少一个非零条目”之后,我最终遇到了这个错误。

0 投票
0 回答
568 浏览

r - 使用 mallet 包对新文本进行分类

有人知道是否有办法使用 R 包将新文本数据分类为主题mallet

这个包的一般例程是:

但是我找不到任何方法来使用预先训练的模型对新数据进行分类。替代方法是使用该topicmodels软件包或通过命令行运行Mallet 。这两个选项都是合理的(尽管我必须说我倾向于使用 Mallet 获得更令人信服的结果),但是如果我已经使用 R 包训练了一个模型mallet并且我不想更改主题,找到一种方法来使用包对数据进行分类mallet会很有帮助。

0 投票
1 回答
94 浏览

r - Windows 中的 R 无法处理某些字符

我在 Linux 中执行了 LDA,并且在主题 2 中没有得到像“ø”这样的字符。但是,当在 Windows 中运行时,它们会显示出来。有谁知道如何处理这个?我使用了包quantedatopicmodels.

编辑:

数据:https ://www.dropbox.com/s/tdr9yok7tp0pylz/technology201501.csv

代码是这样的:

0 投票
1 回答
2031 浏览

r - 带有 R 的 topicmodels 包的 LDA,我如何获得每个术语的主题概率?

我正在为 LDA 使用 topicmodels 包。我想创建一个可视化,显示每个主题的相关性或非相关性。我设想一组词是主题 1 独有的,但有一些共享的关键字连接到另一个主题。这里的任何建议都会很棒。接着说:

为此,我需要知道每个主题的每个术语概率。我如何通过 topicmodels 包获得这个?我可以通过以下方式查看条款:

但我不知道如何获得价值。想法?

0 投票
1 回答
3152 浏览

r - 如何在 R 中做 LDA

我的任务是在亚马逊评论的数据集上应用 LDA 并获得 50 个主题

我已经在向量中提取了评论文本,现在我正在尝试应用 LDA

我已经创建了 dtm

但是当我尝试这样做时,我收到以下错误:

lda <- LDA(矩阵,30)

搜索了一些解决方案并使用了 slam 来

仍然收到相同的错误

我对此很陌生,有人可以帮助我或建议我一些参考资料来研究这个。这将非常有帮助

我的原始矩阵中没有空行,它只包含一列包含评论

0 投票
1 回答
548 浏览

r - Quanteda with topicmodels:删除的停用词出现在结果中(中文)

我的代码:

代码有效,我看到了结果。以下是输出示例:

这是问题所在。我所有的帖子都被分割了(中文的必要预处理步骤)并删除了停用词。尽管如此,主题模型会返回包含已删除的单字符停止词的主题。如果我打开原始 .txt 文件并对给定的单字符停用词执行 ctrl-f,则不会返回任何结果。但是这些术语出现在 R 代码返回的主题中,可能是因为单个字符作为其他多字符单词的一部分出现。例如,就是介词,被视为停用词,但成就意味着“成功”。

与此相关,某些术语是分裂的。例如,我正在研究的一个事件中提到了俄罗斯总统普京(“葫芦”)。然而,在主题模型结果中,我看到“普”和“京”的单独术语条目,而“不同”的条目则没有。(参见输出主题 2 中的第 10 行和第 11 行,与原始文本中的第一个单词进行比较。)

这里是否发生了额外的标记化步骤?

编辑:修改为可重现。出于某种原因,它不会让我发布,直到我也删除了我的介绍性段落。

0 投票
1 回答
2053 浏览

r - 将单词植入 R 中的 LDA 主题模型

我有一个新闻文章数据集,这些文章是根据他们使用术语“欧洲怀疑论”或“欧洲怀疑论”的标准收集的。我一直在使用lda包(dfm内置矩阵quanteda)运行主题模型,以确定这些文章的主要主题;但是,我感兴趣的词没有出现在任何主题中。因此,我想将这些词植入模型中,但我不确定该怎么做。

我看到这个包topicmodels允许一个叫做种子词的参数,它“可以指定为一个matrix或一个对象类simple_triplet_matrix”,但没有其他说明。似乎 asimple_triplet_matrix只接受整数,而不是字符串 - 有谁知道我会在模型中植入“euroscepticism”和“eurosceptic”这两个词?

这是代码的简化版本: