问题标签 [topicmodels]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
206 浏览

r - LDA 中的主题建模之后的下一步是什么

我是主题建模的新手。

所以我希望有经验的人可以回答我的问题。这是我的数据的简化格式: 1. 我有一个尺寸为 1000*2 的 csv 文件。(混合主题) 2. 每行是一个文档和一个文档 ID。每个文档可以有多行,并且文档可以像这样:例如,电影是关于哈利波特的。我喜欢看。

因此,我想从主题模型中找到自然集群/主题,并根据 TOP 术语手动将标签分配给集群。

因此,我将每个文档拆分为单独的标记并使用 LDA,然后使用最低的困惑分数来获得最佳集群。

使用 LDA 后,我绘制了每个主题最常出现的术语的可视化。

但是,1. 我不确定我是否应该做一个 bi/n 克 - 如果是的话怎么做?因为我知道有些术语必须一起出现。2. 我必须使用网络图来查看不同术语之间的相互关系吗?还是不同的主题链接在一起?3. 不太确定我的做法是否正确

0 投票
0 回答
329 浏览

r - R中受监督的LDA包的说明

我在 R 中使用LDA 包进行主题建模,并且对函数中的参数设置感到困惑slda.em

slda.em(documents, K, vocab, num.e.iterations, num.m.iterations, alpha, eta, annotations, params, variance, logistic = FALSE, lambda = 10, regularise = FALSE, method = "sLDA", trace = 0L, MaxNWts=3000)

据我了解,sLDA 模型可以拟合和预测新文档的响应值。所以我想知道annotationslda 中是否代表响应/标签?如果不是,注释是什么意思?我应该将哪个参数视为响应?谢谢!

0 投票
0 回答
142 浏览

r - 将存储在数据框和文件夹中的文本合并到一个语料库中

我有以两种不同格式存储的文本数据 - 作为数据框和一系列文件夹(由于存储类型,我不确定我能否以可重现的格式发布此问题)。

我可以从下面这些不同的文本源中创建一个语料库,但想知道如何使用 R 中的 topicmodels 包将它们组合成一个语料库?

我已经执行了:

但是想将它们组合成一个统一的语料库。

0 投票
2 回答
230 浏览

lda - 如何用槌预测一批文档的主题

我正在使用来自 scala 项目的槌。在训练主题模型并获得推理文件后,我尝试将主题分配给新文本。问题是我使用不同的调用方法得到了不同的结果。以下是我尝试过的事情:

  1. 创建一个新的 InstanceList 并仅摄取一个文档并从 InstanceList 中获取主题结果

    /li>
  2. 将所有内容放在 InstanceList 中并一起预测主题。

    /li>

这两种方法产生的结果非常不同,除了第一种情况。使用推理器的正确方法是什么?

附加信息:我检查了实例数据。

我假设括号中的数字是预测中使用的单词的索引。当我将所有文本放入 InstanceList 时,索引是不同的,因为该集合有更多的文本。不确定在模型预测过程中如何准确地考虑这些信息。

0 投票
1 回答
292 浏览

lda - 来自 topicmodels 的 LDA() 函数中的附加种子词参数

我正在寻找潜在狄利克雷分配(LDA)的深入示例,其中为 R 中的 topicmodels 包指定了种子词。

基本函数采用以下形式:
LDA(x, k, method = "Gibbs", control = NULL, model = NULL, ...)

并且文档仅说明:

对于method =“Gibbs”,可以将附加参数种子词指定为矩阵或类“simple_triplet_matrix”的对象;默认值为 NULL。

谁能给我一个完整的例子来说明它的外观和功能?

0 投票
2 回答
3500 浏览

r - Error: No tidy method for objects of class LDA_VEM§

I am literally following the steps as presented in chapter 6 of the "Text Mining in R: a Tidy Approach" book. See: https://www.tidytextmining.com/topicmodeling.html

Gives me the following error in the terminal:

What I should be getting, meanwhile is:

Why am I seeing this error instead of the desired result?

0 投票
0 回答
175 浏览

r - R topicmodels包:我们做LDA时如何识别Beta(eta)的参数?

我使用 R 包进行了主题建模 (LDA),topicmodels并成功获得了结果。但是,我仍然不确定如何在这个 topicmodels 包中设置 LDA 的关键参数 Beta(或 eta)。

我知道我们可以通过写入control=list(alpha = 0.5)LDA 命令来设置 Alpha 参数。但是,我不知道如何在 LDA 命令中指定 Beta (eta) 参数。有谁知道 1)如何在topicmodelsR 包中设置 Beta 参数和 2)我们使用topicmodels包时 Beta 的默认值是多少?非常感谢您的帮助!!

0 投票
0 回答
196 浏览

r - 为什么 STM 对我的代码的estimateEffect 不起作用?

我在 R 中对 STM 模型运行协变量效应时遇到问题。有什么建议可以解决这个问题吗?

错误警告来自准备: posint(K) 中的错误:找不到函数“posint”

0 投票
1 回答
1036 浏览

topic-modeling - 主题建模:LDA 和 BTM

有人知道这里的主题建模吗?我非常需要帮助。

1) 什么是主题建模 2) 什么是潜在狄利克雷分配和双项主题建模?3)LDA和BTM有什么区别?4) 它们是如何工作的?

我找到了研究,但我无法理解其中的一些,尤其是 BTM,它很难找到(即使在 YouTube 中,也找不到教程)。

太感谢了。

0 投票
1 回答
117 浏览

r - 绘制每个组的主题流行度[结构主题建模 R]

社区,

我有一个关于 R 的 STM 包的问题,​​希望你能帮我找到答案。

在小插图的图 7中,作者展示了一个图表,其中可以看到随着时间的推移主题流行度(针对主题 7)。是否可以通过添加另外两条线来绘制相同的图:一条代表自由主义,一条代表保守主义?

自由和保守是变量“评级”的属性