问题标签 [topicmodels]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - LDA 中的主题建模之后的下一步是什么
我是主题建模的新手。
所以我希望有经验的人可以回答我的问题。这是我的数据的简化格式: 1. 我有一个尺寸为 1000*2 的 csv 文件。(混合主题) 2. 每行是一个文档和一个文档 ID。每个文档可以有多行,并且文档可以像这样:例如,电影是关于哈利波特的。我喜欢看。
因此,我想从主题模型中找到自然集群/主题,并根据 TOP 术语手动将标签分配给集群。
因此,我将每个文档拆分为单独的标记并使用 LDA,然后使用最低的困惑分数来获得最佳集群。
使用 LDA 后,我绘制了每个主题最常出现的术语的可视化。
但是,1. 我不确定我是否应该做一个 bi/n 克 - 如果是的话怎么做?因为我知道有些术语必须一起出现。2. 我必须使用网络图来查看不同术语之间的相互关系吗?还是不同的主题链接在一起?3. 不太确定我的做法是否正确
r - R中受监督的LDA包的说明
我在 R 中使用LDA 包进行主题建模,并且对函数中的参数设置感到困惑slda.em
。
slda.em(documents, K, vocab, num.e.iterations, num.m.iterations, alpha,
eta, annotations, params, variance, logistic = FALSE, lambda = 10,
regularise = FALSE, method = "sLDA", trace = 0L, MaxNWts=3000)
据我了解,sLDA 模型可以拟合和预测新文档的响应值。所以我想知道annotation
slda 中是否代表响应/标签?如果不是,注释是什么意思?我应该将哪个参数视为响应?谢谢!
r - 将存储在数据框和文件夹中的文本合并到一个语料库中
我有以两种不同格式存储的文本数据 - 作为数据框和一系列文件夹(由于存储类型,我不确定我能否以可重现的格式发布此问题)。
我可以从下面这些不同的文本源中创建一个语料库,但想知道如何使用 R 中的 topicmodels 包将它们组合成一个语料库?
我已经执行了:
但是想将它们组合成一个统一的语料库。
lda - 如何用槌预测一批文档的主题
我正在使用来自 scala 项目的槌。在训练主题模型并获得推理文件后,我尝试将主题分配给新文本。问题是我使用不同的调用方法得到了不同的结果。以下是我尝试过的事情:
创建一个新的 InstanceList 并仅摄取一个文档并从 InstanceList 中获取主题结果
/li>将所有内容放在 InstanceList 中并一起预测主题。
/li>
这两种方法产生的结果非常不同,除了第一种情况。使用推理器的正确方法是什么?
附加信息:我检查了实例数据。
我假设括号中的数字是预测中使用的单词的索引。当我将所有文本放入 InstanceList 时,索引是不同的,因为该集合有更多的文本。不确定在模型预测过程中如何准确地考虑这些信息。
lda - 来自 topicmodels 的 LDA() 函数中的附加种子词参数
我正在寻找潜在狄利克雷分配(LDA)的深入示例,其中为 R 中的 topicmodels 包指定了种子词。
基本函数采用以下形式:
LDA(x, k, method = "Gibbs", control = NULL, model = NULL, ...)
并且文档仅说明:
对于method =“Gibbs”,可以将附加参数种子词指定为矩阵或类“simple_triplet_matrix”的对象;默认值为 NULL。
谁能给我一个完整的例子来说明它的外观和功能?
r - Error: No tidy method for objects of class LDA_VEM§
I am literally following the steps as presented in chapter 6 of the "Text Mining in R: a Tidy Approach" book. See: https://www.tidytextmining.com/topicmodeling.html
Gives me the following error in the terminal:
What I should be getting, meanwhile is:
Why am I seeing this error instead of the desired result?
r - R topicmodels包:我们做LDA时如何识别Beta(eta)的参数?
我使用 R 包进行了主题建模 (LDA),topicmodels
并成功获得了结果。但是,我仍然不确定如何在这个 topicmodels 包中设置 LDA 的关键参数 Beta(或 eta)。
我知道我们可以通过写入control=list(alpha = 0.5)
LDA 命令来设置 Alpha 参数。但是,我不知道如何在 LDA 命令中指定 Beta (eta) 参数。有谁知道 1)如何在topicmodels
R 包中设置 Beta 参数和 2)我们使用topicmodels
包时 Beta 的默认值是多少?非常感谢您的帮助!!
r - 为什么 STM 对我的代码的estimateEffect 不起作用?
我在 R 中对 STM 模型运行协变量效应时遇到问题。有什么建议可以解决这个问题吗?
错误警告来自准备: posint(K) 中的错误:找不到函数“posint”
topic-modeling - 主题建模:LDA 和 BTM
有人知道这里的主题建模吗?我非常需要帮助。
1) 什么是主题建模 2) 什么是潜在狄利克雷分配和双项主题建模?3)LDA和BTM有什么区别?4) 它们是如何工作的?
我找到了研究,但我无法理解其中的一些,尤其是 BTM,它很难找到(即使在 YouTube 中,也找不到教程)。
太感谢了。
r - 绘制每个组的主题流行度[结构主题建模 R]
社区,
我有一个关于 R 的 STM 包的问题,希望你能帮我找到答案。
在小插图的图 7中,作者展示了一个图表,其中可以看到随着时间的推移主题流行度(针对主题 7)。是否可以通过添加另外两条线来绘制相同的图:一条代表自由主义,一条代表保守主义?
自由和保守是变量“评级”的属性