问题标签 [topicmodels]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 您可以为 summary.estimateEffect 打印超过 11 个协变量吗?
我已经创建了一个 stm 主题模型,但 summary.estimateEffect 有问题,我有大约 150 天,但它只打印 10 天的回归估计。
主题 14 系数 - https://prnt.sc/105pg1a
任何人都可以推荐任何关于如何打印超过 10 天的建议吗?
topic-modeling - 如何在 R 中创建一个模型,该模型使用预定义的主题和一组新词上的某些词来确定与主题的相关性
我正在尝试构建一个模型,该模型可以确定文本字符串与预定义主题的相关程度,并尝试了几种方法(主要是带有种子词的 LDA,主要是朴素贝叶斯),但无法真正获得所需的结果。
我有一个列表,其中包含“内部”和“外部”两个主题以及与每个主题相关的几个单词
里面 | 外部 |
---|---|
生产 | 客户 |
营销 | 供应商 |
金融 | 银行 |
等等 | 等等 |
我要分析的文本包含在列中,例如:banks_production_clients
此外,我有大约 1115 个文档,每个文档与多个列相关(每个大约 200 个)。
我希望我的模型能够识别这包含两个属于“外部”主题的词和一个属于“内部”主题的词。所以,这使得它类似于 0.67 与外部相关,0.33 与内部相关。最后,我想看看每个文档(包含 200 列)与任一主题的相关程度。
单词的出现差异很大,因此在运行 LDA 时,将频繁出现的单词组合在一起,因为它们也更频繁地同时出现。
r - 尝试进行主题建模时,R 上的错误消息:“未找到数据集 'X'”,尽管我已经将该数据用于其他技术
我正在使用 GeniusAPI 的数据对 Paramore 的唱片进行抒情分析。在经历了数据争论之后,我已经完成了大部分分析。我能够根据每张专辑的情绪分析创建词云和条形图。但现在我正在尝试为其中一张专辑(Riot)进行主题模型。为此,您必须确保您的数据是文档术语矩阵。
就在第一步尝试启动主题模型时出现错误消息
数据(防暴令牌)
错误消息:未找到数据集 'riottoken'"
虽然我使用 'riottoken' 进行词云和情感分析。
我尝试使用不同的代码将“riottoken”(我的数据)转换为语料库和文档术语矩阵,但也失败了。我将在下面留下两个例子。任何帮助将不胜感激。
vector - 如何在 R 上将 tibble 更改为语料库?
我正在尝试对一些数据进行主题建模。为此,我必须将我的数据(包含 770 行的小标题)转换为语料库,然后转换为文档术语矩阵。我无法将我的 tibble 转换为语料库,任何指导或帮助将不胜感激。下面的示例代码:
'''语料库 = 语料库(向量源(RIOTtoken)'''
这将导致一条错误消息显示错误:corpus() 仅适用于字符、语料库、语料库、data.frame、kwic 对象。
(RIOTtoken 是我的数据,我正在尝试分析一张专辑)
r - LDA 中的错误(cdes, k = K, method = "Gibbs", control = list(verbose = 25L, : 输入矩阵的每一行都需要包含至少一个非零条目
我有一个包含近 90 列和大约 200k 观察值的大数据集。其中一列包含描述,因此它只是文本。但是,我有 100 条不适用的描述。
我尝试了来自 GitHub 的 Pablo Barbera 关于主题模型的代码,因为我需要它。
输出
LDA 中的错误(cdes, k = K, method = "Gibbs", control = list(verbose = 25L, : 输入矩阵的每一行都需要包含至少一个非零条目
因为我的子集中没有任何 NA,所以我不明白这个错误消息(这是我第一次使用这个包)
r - 如何在 R 的 topicmodels 包中计算 LDA(使用 Gibbs 采样)主题比例(超过文档)?
我能够从 R 中的 topicmodels 包中计算拟合 LDA 模型的主题比例,使用伽马矩阵,来自 VEM 和固定 VEM 采样方法。然而,当谈到 Gibbs 采样时,当我做完全相同的事情来计算主题比例时,即使用 tidytext 和 slice_max 函数来处理 gamma 矩阵时,它会产生一个比 Document Term Matrix 包含更多文档的数据结构用作输入。具体来说,有 27599 个文档(实际上是经过预处理的推文),它返回了一个或多或少的 41000 个列表,其中包含每个文档最常见的主题。当我对其他 2 个矩阵执行此操作时,它会根据所提供数据的维度返回一个包含 27599 个项目的列表。伽马矩阵在维度上都是相等的(VEM、固定 VEM、Gibbs)。我在这里想念什么?
numbers - 删除R中单词中的反斜杠
我一直在尝试为文章做主题建模。我清理了包含大量反斜杠和数字的原始数据。即使在删除标点符号、反斜杠和数字之后,我还是得到了反斜杠以及主题 1 中最重要的数字。我用于预处理的代码片段是
即使在尝试清理数据之后,我也得到了主题中最热门的反斜杠和数字,设计
机器人
类
医疗
设备 wkh\003
学生
dcbl
ri\003
课程
主题中的反斜杠和数字完全不合适。请帮我解决问题
r - 在 STM 和 seededLDA 上在 R 中运行 Oolong 验证时出错
我正在尝试运行 oolong 包来验证我创建的几个主题模型。同时使用 STM 模型和 seededLDA 模型(此代码不可重现)
或者
在这两种情况下,它都成功地在我的全局环境中创建了一个乌龙测试。但是,当我运行单词 intrusion 或 topic intrusion test 时,我的控制台和查看器都会出现此错误:
我在其他任何地方都找不到对这个错误的任何引用。我已经检查过我正在运行最新版本的乌龙。
我还尝试在随 oolong 提供的模型/语料库上运行它。所以这段代码是可重现的:
这会产生相同的错误。
r - R 中带有 textmodel_seedLDA 包的 LDA 主题模型的诊断(困惑、LogLik 等)
我正在使用这个seededLDA
包来做一个 LDA 主题模型。但是,我发现用于计算困惑度、对数似然度、排他性等(以及其他诊断工具)的所有包和函数都不适用于这些模型(它们仅适用于topicmodels
LDA 输出)。
我没有使用topicmodels
,因为我需要使用种子词,并且我无法让播种功能发挥topicmodels
作用。
我真的很喜欢的外观,topicdoc
但仅适用于topicmodels
. 那么,有谁知道如何:
- 将输出转换
textmodel
为topicmodels
; 或者 - 对
textmodel
输出进行诊断?
在此先感谢,丹尼尔