问题标签 [topicmodels]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 LDA 预测主题
我正在尝试从使用 R 的“lda”包构建的适合中提取主题分配。我创造了一个合适的:
...并希望提取每个主题-文档分配的概率,或者只是每个文档最可能的主题。使用“topicmodel”包,我可以调用
得到那个(就像在带有主题模型的 LDA 中,我怎样才能看到不同文档属于哪些主题?)
我怎样才能用'lda'得到同样的结果?
r - 如何将只有一个元素的“列表”类更改为 R 中的对象?
我使用以下代码创建了一个主题模型列表,其中主题的数量从 26 到 35 不等,以 1 为单位:
当我调用 best.model 时,我得到:
然后我尝试将每个主题模型提取到单独的对象中:
但是,当我调用每个模型的类时,我得到:
如何从初始 best.model 列表中提取每个元素,并使每个元素成为我可以轻松操作的对象?
java - 如何获得槌中主题的概率分布?
使用槌我可以获得特定数量的主题及其单词。如何确保主题词具有概率分布(即总和为一)?
例如,如果我按以下方式运行它,我如何使用 mallet 给出的输出来确保主题 0 的主题词的概率加起来为 1?
r - DocumentTermMatrix 需要有一个词频加权错误
我正在尝试在相当大的数据集上使用 topicmodels 包中的 LDA() 。在尝试了所有方法来修复以下错误“在 nr * nc 中:整数溢出产生的 NAs”和“输入矩阵的每一行都需要包含至少一个非零条目”之后,我最终遇到了这个错误。
r - 使用 mallet 包对新文本进行分类
有人知道是否有办法使用 R 包将新文本数据分类为主题mallet
?
这个包的一般例程是:
但是我找不到任何方法来使用预先训练的模型对新数据进行分类。替代方法是使用该topicmodels
软件包或通过命令行运行Mallet 。这两个选项都是合理的(尽管我必须说我倾向于使用 Mallet 获得更令人信服的结果),但是如果我已经使用 R 包训练了一个模型mallet
并且我不想更改主题,找到一种方法来使用包对数据进行分类mallet
会很有帮助。
r - Windows 中的 R 无法处理某些字符
我在 Linux 中执行了 LDA,并且在主题 2 中没有得到像“ø”这样的字符。但是,当在 Windows 中运行时,它们会显示出来。有谁知道如何处理这个?我使用了包quanteda
和topicmodels
.
编辑:
数据:https ://www.dropbox.com/s/tdr9yok7tp0pylz/technology201501.csv
代码是这样的:
r - 带有 R 的 topicmodels 包的 LDA,我如何获得每个术语的主题概率?
我正在为 LDA 使用 topicmodels 包。我想创建一个可视化,显示每个主题的相关性或非相关性。我设想一组词是主题 1 独有的,但有一些共享的关键字连接到另一个主题。这里的任何建议都会很棒。接着说:
为此,我需要知道每个主题的每个术语概率。我如何通过 topicmodels 包获得这个?我可以通过以下方式查看条款:
但我不知道如何获得价值。想法?
r - 如何在 R 中做 LDA
我的任务是在亚马逊评论的数据集上应用 LDA 并获得 50 个主题
我已经在向量中提取了评论文本,现在我正在尝试应用 LDA
我已经创建了 dtm
但是当我尝试这样做时,我收到以下错误:
lda <- LDA(矩阵,30)
搜索了一些解决方案并使用了 slam 来
仍然收到相同的错误
我对此很陌生,有人可以帮助我或建议我一些参考资料来研究这个。这将非常有帮助
我的原始矩阵中没有空行,它只包含一列包含评论
r - Quanteda with topicmodels:删除的停用词出现在结果中(中文)
我的代码:
代码有效,我看到了结果。以下是输出示例:
这是问题所在。我所有的帖子都被分割了(中文的必要预处理步骤)并删除了停用词。尽管如此,主题模型会返回包含已删除的单字符停止词的主题。如果我打开原始 .txt 文件并对给定的单字符停用词执行 ctrl-f,则不会返回任何结果。但是这些术语出现在 R 代码返回的主题中,可能是因为单个字符作为其他多字符单词的一部分出现。例如,就是介词,被视为停用词,但成就意味着“成功”。
与此相关,某些术语是分裂的。例如,我正在研究的一个事件中提到了俄罗斯总统普京(“葫芦”)。然而,在主题模型结果中,我看到“普”和“京”的单独术语条目,而“不同”的条目则没有。(参见输出主题 2 中的第 10 行和第 11 行,与原始文本中的第一个单词进行比较。)
这里是否发生了额外的标记化步骤?
编辑:修改为可重现。出于某种原因,它不会让我发布,直到我也删除了我的介绍性段落。
r - 将单词植入 R 中的 LDA 主题模型
我有一个新闻文章数据集,这些文章是根据他们使用术语“欧洲怀疑论”或“欧洲怀疑论”的标准收集的。我一直在使用lda
包(dfm
内置矩阵quanteda
)运行主题模型,以确定这些文章的主要主题;但是,我感兴趣的词没有出现在任何主题中。因此,我想将这些词植入模型中,但我不确定该怎么做。
我看到这个包topicmodels
允许一个叫做种子词的参数,它“可以指定为一个matrix
或一个对象类simple_triplet_matrix
”,但没有其他说明。似乎 asimple_triplet_matrix
只接受整数,而不是字符串 - 有谁知道我会在模型中植入“euroscepticism”和“eurosceptic”这两个词?
这是代码的简化版本: