问题标签 [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6269 浏览

matlab - Matlab - LDA “训练的合并协方差矩阵必须是正定的。”

有人可以帮我解决这个问题。很长一段时间以来,我一直试图弄清楚这一点。

我有一个 training_Set:<1530*270400 double> 和 Test_Set:<4794*270400 double>

我正在使用线性判别分析方法

使用分类时出错(第 228 行)

TRAINING 的合并协方差矩阵必须是正定的。

0 投票
1 回答
1180 浏览

cython - Bakeoff 第 1 部分 Python vs Cython vs Cython 类型化内存视图:Gibbs Sampling 的 LDA

更新:内存视图获胜。 Cython 使用类型化的内存视图:0.0253449

特别感谢 lothario 指出了几个关键的变化。

荒谬的。当然现在的问题是,似乎不能对它们做很多算术(求和和乘法)。 受Python (numpy) 实现主题模型 启发的原始帖子,速度非常慢。我认为对它进行cythonize是个好主意。但是我只能弄清楚如何将 cython 的时间减半。这里有明显的数组操作没有被优化 - 一些想法和建议将是最受欢迎的。我一直想和 cython 一起玩,这似乎是一个好机会!

对于 15 个文档,每个文档大约 300 个单词,python:39.6903322834 cython:19.2733114806 Cython using typed memoryviews:0.547822975

我特别想使用 nogil,因此可以进一步加快速度:1)使用内存视图,将 nogil 添加到循环中是否有帮助?2)我有一个文档列表,每个文档都由一个数字数组表示。什么是最适合我使用的 C 对象?nogil 不适用于 python 对象。目前我将此作为数组列表。

我不是 C 爱好者,但欢迎任何进一步的优化建议。

来自朋友的 Java 实现,1000 个文档,每个文档 300 字,3 秒。

lda_pyx Cython 代码

纯python版本

cProfile

0 投票
0 回答
445 浏览

python - Bakeoff 第 2 部分:使用 Cython 类型的 Memoryviews 进行数学运算

我似乎无法做一些简单的事情,比如将值添加到存储在内存视图中的值数组中。我知道这不是类型化的内存视图应该做的。但是将内存视图转换回 np.array 比乌龟放牧猫要慢。

当我尝试编写如下 cdef 函数时:

我收到错误说内存视图不连续。

“ValueError:缓冲区和内存视图在同一维度上不连续。”

如果传递的内存视图不是已切片的,这实际上确实有效。但它增加了 10 秒的过程!

0 投票
1 回答
17333 浏览

r - 预测新数据的 LDA 主题

看起来这个问题之前可能已经被问过几次(这里 和这里),但还没有回答。如评论所示,我希望这是由于先前所问问题的模棱两可。如果我再次提出类似问题而违反协议,我深表歉意,我只是假设这些问题不会看到任何新答案。

无论如何,我是潜在狄利克雷分配的新手,并且正在探索将其用作文本数据降维的一种手段。最终,我想从一个非常大的词袋中提取一组较小的主题,并使用这些主题作为模型中的几个变量来构建一个分类模型。我已经成功地在训练集上运行 LDA,但我遇到的问题是能够预测哪些相同的主题出现在其他一些测试数据集中。我现在正在使用 R 的 topicmodels 包,但如果有其他方法可以使用其他包,我也对此持开放态度。

这是我正在尝试做的一个例子:

0 投票
1 回答
7294 浏览

python - 我们可以使用自制的语料库使用 gensim 进行 LDA 训练吗?

我必须应用 LDA(潜在狄利克雷分配)从我收集的 20,000 个文档的数据库中获取可能的主题。

我如何使用这些文档而不是其他可用的语料库(如布朗语料库或英语维基百科)作为训练语料库?

你可以参考这个页面。

0 投票
1 回答
1788 浏览

python - 使用 gensim 将 LDA 应用于语料库进行训练

我有大约 20,000 个文档的语料库,我必须使用 LDA 训练该数据集以进行主题建模。

每当我运行这个程序时,我都会遇到这个错误:

我什至尝试更改LdaModel函数中的值,但总是遇到同样的错误!

应该做什么 ?

0 投票
3 回答
15966 浏览

python - 如何使用经过训练的 LDA 模型使用 gensim 预测新查询的主题?

我已经使用 gensim 为 LDA 主题建模训练了一个语料库。

浏览 gensim 网站上的教程(这不是全部代码):

这是我得到的输出:

我不知道最后的输出将如何帮助我找到可能的主题question!!!

请帮忙!

0 投票
1 回答
5860 浏览

r - R主题建模:lda模型标注功能

我使用 LDA 为 2 个文本文档 A 和 B 建立主题模型。文档 A 与计算机科学高度相关,文档 B 与地球科学高度相关。然后我使用这个命令训练了一个 lda:

现在我想使用 my_lda 来预测一个新文档的上下文,比如 C,我想看看它是否与计算机科学或地球科学有关。我知道我是否使用此代码进行预测

它会给我一个标签 1 或 2,但我不知道 1 或 2 代表什么……我怎么知道它是指计算机科学相关还是地球科学相关?

0 投票
1 回答
491 浏览

python - (Gensim) ValueError: 无效的形状,带有 alpha 参数

首先,这是获取执行 LDA 的语料库主题分布的正确方法吗?

现在,当我将 alpha 参数添加到 LDA 并尝试将语料库转换为稀疏矩阵时,就会出现问题,如下所示:

在从 gensim 语料库到第 3 行中的稀疏矩阵的转换过程中,出现错误ValueError: invalid shape

我只有在添加 ALPHA 参数时才会遇到这个问题!

完整的追溯:

0 投票
1 回答
6621 浏览

python - PyCharm 中的 Gensim ImportError:没有名为 scipy.sparse 的模块

我在 Mac OS X 10.8.3 (Mountain Lion) 上,正在尝试在 PyCharm 中运行脚本。Python 2.7.2 已安装,我已安装 Canopy 和 Gensim。我只是不明白是什么导致了我遇到的错误。

显示已安装 v 0.11。

这是运行脚本后我的全部输出: