问题标签 [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - LDA - Recognition Pattern in Python (sklearn)
I am trying to execute this code on Python. This code refers to a LDA, from sklearn.
clf = LDA() clf.fit(X,y) print(clf.predict([0, 2]))
And show me this error message:
What I do to fix it? I could not find this solution on documentation.
python - 使用 sklearn 在 python 中的 LDA
我正在尝试在 python 中使用 sklearn 实现 LDA 算法
代码是:
但是,我收到消息错误:
我该怎么做才能解决这个错误?
我正在使用这个版本的 LDA,来自 SKLEARN http://scikit-learn.org/stable/modules/generated/sklearn.lda.LDA.html
非常感谢!
python - 使用 gensim 了解 LDA 实现
我试图了解 Python 中的 gensim 包如何实现潜在狄利克雷分配。我正在执行以下操作:
定义数据集
删除停用词后,我创建了字典和语料库:
然后我定义了 LDA 模型。
然后我打印主题:
我无法从这个结果中理解很多。它是否提供了每个单词出现的概率?另外,主题#1,主题#2等是什么意思?我期待的东西或多或少像最重要的关键字。
我已经检查了gensim 教程,但它并没有太大帮助。
谢谢。
r - R中LDA中多个类的Fisher分类函数系数
我对与 LDA 相关的 R 有一点疑问,就像在 spss 中,当我尝试使用包 MASS 在 R 中获取线性判别分析的 Fisher 分类函数系数时,我只得到如下线性判别系数:
线性判别系数:
但是我的分组变量中有 7 个组,我需要为所有五个变量的每个集群获取渔民分类函数系数,以便我可以使用它们在 Excel 中进行进一步分析。我打算在下面添加类似的表格:
分类函数系数
所以我想要在R中与上面相同的输出,请帮帮我:
matlab - MatLab 中有任何 LDA 代码示例吗?
我想在我的小数据集(65x8)上执行简单的 LDA。我有 65 个实例(样本)、8 个特征(属性)和 4 个类。LDA 的任何 matlab 代码,据我所知,Matlab Toolbox 没有 LDA 功能所以我需要编写自己的代码。有什么帮助吗?
我在网上找到这段代码
然后我得到了这个结果 ldaClass =
错误 =
P =
系数 =
具有字段的 4x4 结构数组:类型 name1 name2 const linear
ldaResubCM =
grpOrder =
所以我有 65 个实例、8 个属性和 4 个类(1、2、3、4)。所以不知道如何解释这些结果。有什么帮助吗?
r - 在 R 中的频率列表上创建主题模型
我一直在使用该topicmodels
包在 R 中创建 LDA 模型。
但它接受文档的唯一格式是实际的文字文档。我想知道是否有办法提供频率图
这显然不是 R 中的“地图”,而是允许从词频创建主题模型的任何数据结构(数据框、表、向量列表)表示?
我需要这个的原因是因为主题模型不是在“文档”和“单词”上创建的,而是在图像中的类似特征上创建的,并且长格式表示需要太多空间。
python - 主题分布:在python中做LDA后如何查看哪个文档属于哪个主题
我能够从 gensim 运行 LDA 代码,并获得前 10 个主题及其各自的关键字。
现在我想更进一步,通过查看它们聚集到每个主题中的文档来了解 LDA 算法的准确性。这在gensim LDA中可能吗?
基本上我想做这样的事情,但是在 python 中并使用 gensim。
machine-learning - 奇异值分解 (SVD) 为潜在语义分析 (LSA) 生成的矩阵的含义/含义
LSA 中使用 SVD 来获取潜在语义信息。我对 SVD 矩阵的解释感到困惑。
我们首先建立一个文档术语矩阵。然后使用 SVD 将其分解为 3 个矩阵。
例如:
doc-term 矩阵 M1 是 M x N,其中:
M1被分解为:
我看到如下解释:
M2的第 k列代表语义相似的类别。M4的第 k行代表主题。
我的问题是:
为什么 k 会像上面那样解释?我们怎么知道它是相似的语义和主题?
为什么相似的语义等于主题?
为什么 k 在 M2 和 M4 之间的解释不同
如何解读M3?
我真的很困惑。似乎解释是完全武断的。这就是潜在的意思吗?
r - lda.collapsed.gibbs.sampler 初始不能在 R 中工作
我对 R 完全陌生,我目前正在使用tm和lda包来分析日志。
该lda.collapsed.gibbs.sampler可以采用“初始”参数,并在文档中说明:
最初的
单词的初始主题分配列表。它应该与返回值的 assignments 字段格式相同。如果此字段为 NULL,则采样器将使用随机分配进行初始化。
但是,当我尝试迭代将先前的 result$assignments 作为初始参数传递时,出现错误:
我不知道如何摆脱它并实际使用该列表。我想要的是通过采取措施并查看结果来衡量收敛,因此简单地将i设置为更大的数字是行不通的。
提前致谢!:)
nlp - 如何确定用于文本聚类的 LDA(潜在狄利克雷分配)算法中的主题数?
我正在使用 LDA 算法将许多文档聚集到不同的主题中。LDA 算法需要一个输入参数:主题数。我怎么能确定这个?
我正在使用 Reuter 语料库对我的解决方案进行基准测试。路透社语料库已准备好主题编号。聚类路透社文本时是否应该输入相同的主题编号?并将我的聚类结果与路透社的比较?
但是在生产中,在我实际基于主题进行聚类之前,我怎么知道主题的数量。这有点像鸡蛋问题。