问题标签 [topicmodels]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 为什么我在 1:nrow(counts) 中出现错误:长度为 0 的参数
我正在使用topicmodels
R 中的包进行主题建模。我正在创建一个语料库对象,进行一些基本的预处理,然后创建一个 DocumentTermMatrix:
然后我在最后一行得到了错误
这是错误:
我认为这意味着它不能计算第一行。有什么方法可以检查。
r - How to make topic modelling?
I was trying my hand at topic modeling for the first time. Tried running the vignette code but getting following errors;
Need help in resolving the error. Thank you.
r - 潜在狄利克雷分配困惑度随着主题数量 k 的增加而增加
我正在研究 R 中的 LDA,并试图评估我的模型对不同主题 k 值的困惑度,以了解困惑度的良好价值是什么。但是,我注意到随着 k 值的增加,困惑度似乎会上升(我相信它不应该)。我能够使用 AssociatedPress {topicmodels} 数据集重新创建此问题。这是代码:
这篇文章很好地表明了困惑应该下降而不是上升。我只是看不出我哪里错了。非常感谢任何帮助!
r - 带有topicmodels(R)的LDA,我如何查看不同文档属于哪些主题,并保留文档标题?
我很欣赏 Ben 的回答:LDA with topicmodels,我如何查看不同文档属于哪些主题?
我的问题是:如何在最后一步保留文档标题?例如:
在单独的文本文件中手动创建三个 .txt 文档并将它们存储在目录 ~Desktop/nature_corpus 中
第一个文件标题:nature.txt
第一篇文献内容:名词the natural world、Mother Nature、Mother Earth、the environment;野生动物、动植物、乡村;宇宙,宇宙。
第二个文件标题:conservation.txt
第二文件内容:名词theconservation oftropical forests:preservation,protection,protecting,safekeeping;照料、监护、饲养、监督;保养、维护、修理、修复;生态学,环保主义。
第三个文件标题:bird.txt
第三文献正文:名词养鸟:家禽;雏鸟、雏鸟、雏鸟;非正式的羽毛朋友,小鸟;鹦鹉; (鸟类)技术鸟类。
主题模型与 topicmodels 一起运行:
如何在此处保留文档标题(在 inspect(dtm_nature_1) 行中可见)?
谢谢。
r - 从扫帚整理没有从主题模型中找到 LDA 的方法
直接从“使用 R 进行文本挖掘”运行此脚本,
我收到此错误消息:
as.data.frame.default(x) 中的错误:无法将类“structure("LDA_VEM", package = "topicmodels")" 强制转换为 >data.frame 另外:警告消息:在 tidy.default(ap_lda) 中:没有使用 as.data.frame 整理 LDA_VEM 类的 S3 对象的方法
'0.4.3'</p>
'0.2.7'</p>
R 版本 3.4.3 (2017-11-30) 平台:x86_64-w64-mingw32/x64 (64-bit) 运行条件:Windows >= 8 x64 (build 9200)
矩阵产品:默认
附加的基础包:[1] stats graphics grDevices utils datasets methods base
其他附加包:[1] broom_0.4.3 topicmodels_0.2-7
通过命名空间加载(未附加):[1] NLP_0.1-11 Rcpp_0.12.15 compiler_3.4.3 pillar_1.1.0 plyr_1.8.4
[6] bindr_0.1 base64enc_0.1-3 keras_2.1.3 tools_3.4.3 zeallot_0.1.0
[11] jsonlite_1.5 tibble_1.4.2 nlme_3.1-131 lattice_0.20-35 pkgconfig_2.0.1
[16] rlang_0.1.6 psych_1.7.8 yaml_2.1.16 parallel_3.4.3 bindrcpp_0.2
[21] stringr_1.2.0 dplyr_0.7.4 xml2_1 .2.0 stats4_3.4.3 grid_3.4.3
[26] reticulate_1.4 glue_1.2.0 R6_2.2.2 foreign_0.8-69 tidyr_0.8.0
[31] purrr_0.2.4 reshape2_1.4.3 magrittr_1.5 晶须_0.3-2 tfruns_1.2
[36] modeltools_0.2-21 assertthat_0.2.0 mnormt_1.5-5 tensorflow_1.5 stringi_1.1.6
[41] slam_0.1-42 tm_0.7-3
r - 重新标记STM中的主题号
为了演示,我想重新标记STM主题建模的主题编号(例如,将“主题40”更改为“主题1”)。但是我不确定我应该在哪里更改(主题编号存储在哪里?)。
corpus - 通过开头定义自己的停用词
我正在寻找一个代码,它允许我从我的文本语料库中删除自己的停用词,但只能在开头定义它们
示例:在我的包含报纸文章的语料库中,还有额外的 htpps.... 包括互联网链接,我的主题建模不需要这些链接。
我现在想删除所有以“https ...”开头的“单词”
有什么办法可以做到这一点吗?
我正在使用 tm 包进行文本转换,到目前为止还使用了一些自己的停用词。
代码r - quanteda 转换为保留 docvars 的主题模型
我正在使用很棒的 quanteda 包将我的 dfm 转换为 topicmodels 格式。但是,在此过程中,我丢失了我需要用来确定哪些主题最有可能在我的文档中流行的文档变量。鉴于 topicmodels 包(与 STM 一样)仅选择非零计数,这尤其是一个问题。原始 dfm 中的文档数量和模型输出因此不同。有什么方法可以让我正确识别 casu 中的文件吗?