问题标签 [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
178 浏览

dictionary - 如何为 LDA 构建字典

我已经在 Latent Dirchlet Allocation 上工作了 2 周,我正在尝试构建一个字典和一个训练文件来尝试它。我已经通过使用 Blei 的训练文件在 Matlab 和 gcc 上进行了尝试,但我不知道如何创建字典。有人可以帮助我吗?谢谢安德里亚

0 投票
0 回答
97 浏览

r - p>n 矩阵的“MASS”包中的线性判别分析的计算

在 R 包“MASS”中,我使用了函数“lda”。我正在尝试查找有关此函数处理具有比观察更多变量的矩阵的特定方式的文档(在本例中使用协方差矩阵的矩估计)。查看代码,它似乎利用了协方差矩阵的奇异值分解,但它执行此操作的确切方式让我迷失了。如果有人知道这种方法的任何参考,将不胜感激。

0 投票
2 回答
3027 浏览

python - 如何解决加载 gensim 语料库中的 unpicklingerror?- Python

我可以将序列化的语料库保存到foobar.mm其中,但是当我尝试加载它时,它给出了UnpicklingError. 加载字典似乎很好。任何人都知道如何解决这个问题?为什么会发生这种情况?

0 投票
3 回答
595 浏览

nlp - 在斯坦福主题建模工具包 (TMT) 中,针对主题的数字是什么意思(在输出文件“summary.txt”中)?

斯坦福 TMT 的“summary.txt”文件的典型片段如下:

到目前为止,我能够获得的关于这些数字的唯一信息是(来自http://nlp.stanford.edu/software/tmt/tmt-0.4):

[Snapshot]/summary.txt Human readable summary of the topic model, with top-20 terms per topic and how many words instances of each have occurred.

但是反对该主题的数字是什么意思?(在本例中,Topic00 37.47500834475079

0 投票
0 回答
77 浏览

java - 用Java读取.lda文件?

对于我需要处理的项目,我需要能够从 .lda 文件(激光数据文件)中读取指令。这是一种二进制文件,所以只要我使用正确的文本编辑器,我就可以看到十六进制的内容,但是让 Java 读取它被证明是很棘手的。话虽如此,我以前从未使用过二进制文件。

文件中的每一行都是这种格式:0000 0000 0000 0000 0000 0000 0000 0000 是十六进制。

我需要能够一次读取每组 4 位数字。

有任何想法吗?谢谢。

0 投票
1 回答
4245 浏览

python - 将 scikit-learn TfIdf 与 gensim LDA 一起使用

我在 scikit learn 中使用了各种版本的 TFIDF 来对一些文本数据进行建模。

结果数据 X 采用以下格式:

我想尝试使用 LDA 来降低稀疏矩阵的维数。有没有一种简单的方法可以将 NumPy 稀疏矩阵 X 输入到 gensim LDA 模型中?

我可以忽略 scikit 并按照 gensim 教程概述的方式进行,但我喜欢 scikit 矢量化器及其所有参数的简单性。

0 投票
1 回答
5741 浏览

lda - Gensim 中的主题模型评估

我一直在尝试使用Gensim进行 LDA 主题建模。我似乎在 Gensim 中找不到任何主题模型评估工具,它可以报告主题模型在保留的评估文本上的困惑,从而有助于后续微调 LDA 参数(例如主题数量)。如果有人能对我如何在 Gensim 中执行主题模型评估有所了解,将不胜感激。这个问题也已发布在metaoptimize上。

0 投票
2 回答
1139 浏览

text-mining - 潜在狄利克雷分配 (LDA) 的文档数量

感谢您花时间看这个问题。我最近从网上抓取了一些文本,并将输出保存为一个大约 300 页的 .txt 文件。我正在尝试实施 LDA 来构建主题,并且熟悉这样做的技术方面。

但是,我的问题是 LDA 使用一个文件还是多个文件是否重要(即,如果我正在检查 200 封电子邮件,我是否需要标记、删除停用词和标点符号,并阻止大文件,然后将每封电子邮件保存为在实现 LDA 之前单独的 .txt 文件,或者我可以在一个文件中完成所有操作吗?

我现在面临的问题是,如果我要将所有内容分解为单独的 .txt 文件,文档的预处理将需要很长时间。有什么建议么?非常感谢。

0 投票
2 回答
5070 浏览

r - 如何为 R 中的主题建模(topicmodels、lda、tm)进行数据准备?

我有一个冗长的 txt 文件(每个文件大约 20.000-30.000 个字)的语料库(622 个文档),我正在尝试在 R 中探索。我已经使用 tm 包进行了一些基本的文本挖掘,并想深入研究主题现在建模。但是,由于对此非常陌生,我已经在为数据准备的一些基础知识而苦苦挣扎。此处提供了我当前正在使用的文件示例:http: //s000.tinyupload.com/? file_id=46554569218218543610

  1. 我假设只是将这些冗长的文档输入主题建模工具是没有意义的。所以我想把它们分成段落(或者可能是 300-500 个单词的集合,因为我的数据中有很多多余的段落中断和 OCR 错误)。您会在 VCorpus 中执行此操作,还是我应该实际划分我的源文件(例如使用 shell 脚本)?有什么建议或经验吗?

  2. 文本来自 OCR 的杂志文章,所以如果我将文档拆分,我想我应该在这些段落中添加一个元数据标签,告诉我它最初来自哪个问题(基本上只是原始文件名),正确? 有没有办法轻松做到这一点?

  3. 一般来说,任何人都可以推荐一个很好的 R 主题建模的实践介绍吗?实际上,一个像三年级学生一样手把手教我的教程会很棒。我正在使用“topicmodels”和“lda”的文档,但是对于新手来说学习曲线相当陡峭。 编辑:为了清楚起见,我已经阅读了很多关于主题建模的流行介绍(例如Scott Weingart历史学家的 MALLET 教程)。我在想一些特定于 R 中的过程的东西。

希望这些问题不是完全多余的。感谢您花时间阅读!

0 投票
1 回答
1455 浏览

matlab - LDA 和降维

我的数据集由大约 300 个对象组成,每个对象有 84 个特征。对象已经分为两类。使用 PCA,我可以将维数降低到大约 24。我使用 3 个主成分,覆盖了原始数据方差的大约 96%。我遇到的问题是 PCA 不关心将类彼此分开的能力。有没有办法结合 PCA 来减少特征空间和 LDA 来为这两个类找到判别函数?或者有没有办法使用 LDA 以最佳方式找到在三维空间中分离两个类的特征?

我有点恼火,因为我找到了这篇论文,但我不是很理解。http://faculty.ist.psu.edu/jessieli/Publications/ecmlpkdd11_qgu.pdf

提前致谢。