问题标签 [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
788 浏览

python - LDA - Recognition Pattern in Python (sklearn)

I am trying to execute this code on Python. This code refers to a LDA, from sklearn.

clf = LDA() clf.fit(X,y) print(clf.predict([0, 2]))

And show me this error message:

What I do to fix it? I could not find this solution on documentation.

0 投票
1 回答
1328 浏览

python - 使用 sklearn 在 python 中的 LDA

我正在尝试在 python 中使用 sklearn 实现 LDA 算法

代码是:

但是,我收到消息错误:

我该怎么做才能解决这个错误?

我正在使用这个版本的 LDA,来自 SKLEARN http://scikit-learn.org/stable/modules/generated/sklearn.lda.LDA.html

非常感谢!

0 投票
5 回答
30379 浏览

python - 使用 gensim 了解 LDA 实现

我试图了解 Python 中的 gensim 包如何实现潜在狄利克雷分配。我正在执行以下操作:

定义数据集

删除停用词后,我创建了字典和语料库:

然后我定义了 LDA 模型。

然后我打印主题:

我无法从这个结果中理解很多。它是否提供了每个单词出现的概率?另外,主题#1,主题#2等是什么意思?我期待的东西或多或少像最重要的关键字。

我已经检查了gensim 教程,但它并没有太大帮助。

谢谢。

0 投票
2 回答
3309 浏览

r - R中LDA中多个类的Fisher分类函数系数

我对与 LDA 相关的 R 有一点疑问,就像在 spss 中,当我尝试使用包 MASS 在 R 中获取线性判别分析的 Fisher 分类函数系数时,我只得到如下线性判别系数:

线性判别系数:

但是我的分组变量中有 7 个组,我需要为所有五个变量的每个集群获取渔民分类函数系数,以便我可以使用它们在 Excel 中进行进一步分析。我打算在下面添加类似的表格:

分类函数系数

所以我想要在R中与上面相同的输出,请帮帮我:

0 投票
1 回答
10085 浏览

matlab - MatLab 中有任何 LDA 代码示例吗?

我想在我的小数据集(65x8)上执行简单的 LDA。我有 65 个实例(样本)、8 个特征(属性)和 4 个类。LDA 的任何 matlab 代码,据我所知,Matlab Toolbox 没有 LDA 功能所以我需要编写自己的代码。有什么帮助吗?

我在网上找到这段代码

然后我得到了这个结果 ldaClass =

错误 =

P =

系数 =

具有字段的 4x4 结构数组:类型 name1 name2 const linear

ldaResubCM =

grpOrder =

所以我有 65 个实例、8 个属性和 4 个类(1、2、3、4)。所以不知道如何解释这些结果。有什么帮助吗?

0 投票
1 回答
456 浏览

r - 在 R 中的频率列表上创建主题模型

我一直在使用该topicmodels包在 R 中创建 LDA 模型。

但它接受文档的唯一格式是实际的文字文档。我想知道是否有办法提供频率图

这显然不是 R 中的“地图”,而是允许从词频创建主题模型的任何数据结构(数据框、表、向量列表)表示?

我需要这个的原因是因为主题模型不是在“文档”和“单词”上创建的,而是在图像中的类似特征上创建的,并且长格式表示需要太多空间。

0 投票
3 回答
25375 浏览

python - 主题分布:在python中做LDA后如何查看哪个文档属于哪个主题

我能够从 gensim 运行 LDA 代码,并获得前 10 个主题及其各自的关键字。

现在我想更进一步,通过查看它们聚集到每个主题中的文档来了解 LDA 算法的准确性。这在gensim LDA中可能吗?

基本上我想做这样的事情,但是在 python 中并使用 gensim。

LDA 与 topicmodels,我如何查看不同文档属于哪些主题?

0 投票
1 回答
598 浏览

machine-learning - 奇异值分解 (SVD) 为潜在语义分析 (LSA) 生成的矩阵的含义/含义

LSA 中使用 SVD 来获取潜在语义信息。我对 SVD 矩阵的解释感到困惑。

我们首先建立一个文档术语矩阵。然后使用 SVD 将其分解为 3 个矩阵。

例如:

doc-term 矩阵 M1 是 M x N,其中:

M1被分解为:

我看到如下解释:

M2的第 k代表语义相似的类别。M4的第 k代表主题

我的问题是:

  1. 为什么 k 会像上面那样解释?我们怎么知道它是相似的语义和主题?

  2. 为什么相似的语义等于主题?

  3. 为什么 k 在 M2 和 M4 之间的解释不同

  4. 如何解读M3?

我真的很困惑。似乎解释是完全武断的。这就是潜在的意思吗?

0 投票
1 回答
1001 浏览

r - lda.collapsed.gibbs.sampler 初始不能在 R 中工作

我对 R 完全陌生,我目前正在使用tmlda包来分析日志。

lda.collapsed.gibbs.sampler可以采用“初始”参数,并在文档中说明:

最初的

单词的初始主题分配列表。它应该与返回值的 assignments 字段格式相同。如果此字段为 NULL,则采样器将使用随机分配进行初始化。

但是,当我尝试迭代将先前的 result$assignments 作为初始参数传递时,出现错误:

我不知道如何摆脱它并实际使用该列表。我想要的是通过采取措施并查看结果来衡量收敛,因此简单地将i设置为更大的数字是行不通的。

提前致谢!:)

0 投票
1 回答
5890 浏览

nlp - 如何确定用于文本聚类的 LDA(潜在狄利克雷分配)算法中的主题数?

我正在使用 LDA 算法将许多文档聚集到不同的主题中。LDA 算法需要一个输入参数:主题数。我怎么能确定这个?

我正在使用 Reuter 语料库对我的解决方案进行基准测试。路透社语料库已准备好主题编号。聚类路透社文本时是否应该输入相同的主题编号?并将我的聚类结果与路透社的比较?

但是在生产中,在我实际基于主题进行聚类之前,我怎么知道主题的数量。这有点像鸡蛋问题。