问题标签 [topicmodels]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 从 R 主题模型中的 DocumentTermMatrix 中删除空文档?
我正在使用 R 中的 topicmodels 包进行主题建模。我正在创建一个语料库对象,进行一些基本的预处理,然后创建一个 DocumentTermMatrix:
然后执行 LDA:
对 LDA() 的最终调用返回错误
我假设这意味着至少有一个文档在预处理后没有术语。有没有一种简单的方法可以从 DocumentTermMatrix 中删除不包含任何术语的文档?
我查看了 topicmodels 包的文档,发现了 removeSparseTerms 函数,该函数删除了未出现在任何文档中的术语,但没有类似的删除文档。
python - 如何将令牌添加到 gensim 字典
我使用gensim从文档集合中构建字典。每个文档都是一个令牌列表。这是我的代码
我的问题是如何将新文档(令牌)添加到这本字典并更新它。我在gensim文档中搜索但没有找到解决方案
r - 您如何在 R 中规范化文档术语矩阵的行?
我有一个名为 train_dtm 的 DocumentTermMatrix,我想标准化所有文档中术语频率的频率计数。我面临的问题是生成的矩阵也应该是 DocumentTermMatrix 类型,因为我想将标准化矩阵传递给 R 中 TopicModels 包的另一个方法 LDA。
以下是我正在使用的方法:
现在,我希望对上述 documenttermmatrix 的行进行规范化。我什至尝试通过添加控制参数
但是上面的调用会抛出一个错误说
我已经编写了使用 apply() 方法规范化 train_dtm 值的方法,但它不返回 DocumentTermMatrix 类型的矩阵。
还有其他方法可以完成上述任务吗?
r - 使用 R 中的“topicmodels”训练主题模型后的文档主题概率:gamma 还是后验()?
下面是我使用 gibbs 采样训练 3328 个文本文件后得到的结果。我需要保存一个包含 document_topic 概率的文件。伽玛是文档主题概率吗?但是大多数数字都经过平滑处理,并且在文档主题概率方面信息量不是很大。我应该使用“后验”函数来预测训练数据上新数据的概率吗?
r - which.max(sapply, train_gibbs, logLik) 错误
因此,我通过计算来自 10 倍训练和测试集的困惑度来遵循 Grun 和 Hornik ( http://www.jstatsoft.org/v40/i13/ ) 的 10 倍交叉验证方法。但是当我创建 test_gibbs 时出现错误,这在下面的代码末尾说明。有人可以建议如何解决这个问题吗?提前致谢。
错误 where.max(sapply, train_gibbs, logLik) : 未使用的参数 (train_gibbs, logLik)
r - 在 R 中手动指定主题模型
我有一个文本语料库,csv 文件中的每一行都唯一地指定了我感兴趣的“主题”。如果我要使用 topicmodels 包或 lda 中的 LDA 或 Gibbs 方法在该语料库上运行主题模型,如预计我会在每个“文档”中获得多个主题(我的 CSV 中的一行文本,我先验地定义为我感兴趣的独特主题)。我知道这是主题模型的算法和词袋假设的结果。
然而我很好奇的是这个
1) R 中是否有一个预制包,专为用户使用经验词分布指定主题而设计?也就是说,我不希望对主题进行估计;我想告诉 R 主题是什么。我想我可以使用正确数量的主题运行主题模型,使用该对象的结构,然后覆盖其内容。我只是希望有一种更简单或更明显的方法,而我现在还没有看到。
想法?
编辑:添加 - 我只是想到了 alpha 和 beta 参数可以控制 LDA 建模算法中的主题/术语分布。我可以使用哪些设置来强制模型在每个文档中只找到 1 个主题?或者是否有允许这种情况发生的设置?
如果这些看起来像我理解的愚蠢问题 - 我对这个特定领域很陌生,我发现它很吸引人。
r - 按日期绘制单个 LDA 主题(在 R 中)
我有一组来自几个期刊(我们称它们为期刊 A 和期刊 B)的文本文件,我试图在这些文件上运行 LDA。我将它们各自划分为自己的语料库,然后将文件名称附加到每个语料库,将来源日志存储在origin
标签下,最后将两个语料库组合成myCorpus
:
从这里我运行 LDA myCorpus
:
从这里我想创建一个图表来衡量随着时间的推移每个期刊的特定主题的比例(我可以通过解析 txt 文件来确定每期期刊的出版时间,并将它们存储在一个向量中类似于我对origin
标签的处理方式)。我不确定如何最好地存储这些信息,以便我可以使用发布日期作为横轴。更重要的是,如何创建我提到的图表?
r - 使用 R(topicmodels) 的 LDA 的不同结果
我正在使用 Rtopicmodels
从一个小型语料库中训练一个 LDA 模型,但我发现每次重复相同的代码时,它都有不同的结果(不同的主题和不同的主题术语)我的问题是为什么相同的条件和相同的语料库有每次结果都不一样,我应该怎么做才能稳定结果?这是我的代码:
我有尝试set.seed
,但它似乎不起作用。而且我发现每次我在同一个语料库上训练时,LDA 模型都会产生不同的主题,但它是一个 Python 的。
r - DocumentTermMatrix() 在 tm 包中返回 0 个术语
我有一个这样的对象:
在每一行中,数字用空格分隔。
我发现条款是空的。我不知道确切的数据结构DocumentTermMatrix()
,我只是按照这个线程Document-Term-Matrix of tm Package in R。任何人都可以帮助解决它吗?谢谢
r - 在 R topicmodels 包中,我们如何获得主题的分布?
我正在使用 topicmodels 包运行 LDA。
这些代码按比例获得 15 个术语的顺序。如果我不是很了解 LDA 算法的话。每个主题都是术语的分布。所以我想知道这些术语的确切分布。例如。Topic.1 30% 与 38 相关,20% 与 40 ..etc 相关。有没有办法通过使用topicmodels
包来获得它?