问题标签 [latent-semantic-indexing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
13776 浏览

python - 在 gensim 中使用潜在 Dirichlet 分配算法进行聚类

是否可以使用 LDA 在 gensim 中对给定的一组输入进行聚类?我该怎么办?

0 投票
2 回答
1442 浏览

api - 免费 LSI 服务或 API 以获取相关关键字

有人告诉我,雅虎曾经有一个免费的 LSI 服务,称为Yahoo Boss API,从 7 月 20 日开始收费,而微软必应搜索引擎有一个免费服务,它提供的功能与 Yahoo Boss API 相似,但功能不如雅虎 Boss API。

除了上述之外,是否还有其他免费 API 可以为开发人员提供此类服务?

我一直试图从谷歌中找到类似的东西,但没有任何结果。

0 投票
3 回答
2981 浏览

algorithm - 潜在语义分析概念

我读过有关使用奇异值分解 (SVD) 在文本语料库中进行潜在语义分析 (LSA) 的文章。我已经了解如何做到这一点,我也了解 SVD 的数学概念。

但我不明白为什么它适用于文本语料库(我相信 - 必须有语言解释)。有人能从语言的角度解释一下吗?

谢谢

0 投票
3 回答
3208 浏览

svm - 使用 LSA/SVD 进行文档分类

我正在尝试使用支持向量机 (SVM) 进行文档分类。我拥有的文件是电子邮件的集合。我有大约 3000 个文档来训练 SVM 分类器,并且有一个大约 700 个需要分类的测试文档集。

我最初使用二进制 DocumentTermMatrix 作为 SVM 训练的输入。使用测试数据进行分类的准确率约为 81%。在删除几个停用词后使用 DocumentTermMatrix。

由于我想提高这个模型的准确性,我尝试使用基于 LSA/SVD 的降维,并使用生成的降维因子作为分类模型的输入(我尝试使用原始包中的 20、50、100 和 200 个奇异值〜3000字)。在每种情况下,分类的性能都变差了。(使用 LSA/SVD 的另一个原因是为了克服具有 65 个级别的响应变量之一的记忆问题)。

有人可以就如何提高 LSA/SVD 分类的性能提供一些指导吗?我意识到这是没有任何特定数据或代码的一般问题,但希望专家提供一些关于从哪里开始调试的意见。

仅供参考,我正在使用 R 进行文本预处理(包:tm、雪球、lsa)和构建分类模型(包:kernelsvm)

谢谢你。

0 投票
1 回答
1092 浏览

java - LSA - 找到 SVD 后的步骤

从早上开始,我已经阅读了很多教程。我的问题涉及找到两个文档之间的相似性。为此,我期待在 java 中使用 LSA。

我了解术语文档矩阵的创建,然后将 SVD(维数减少)应用于它。结果获得了 3 个矩阵。这听起来可能很愚蠢,但我已经坚持了很长一段时间。现在,如果我必须找到两个文档之间的相似性,我该怎么办?

0 投票
2 回答
5850 浏览

python - TF-IDF是如何在python的gensim工具中实现的?

从我从网上找到的文档中,我找出了用于确定语料库中术语的术语频率和逆文档频率权重的表达式

tf-idf(wt)= tf * log(|N|/d);

我正在经历 gensim 中提到的 tf-idf 的实现。文档中给出的示例是

这显然不遵循 Tf-IDF 的标准实现。两种型号有什么区别?

注意:0.70710678 是 2^(-1/2) 的值,通常用于特征值计算。那么特征值是如何进入 TF-IDF 模型的呢?

0 投票
4 回答
6080 浏览

nlp - LDA 如何给出一致的结果?

流行的主题模型 Latent Dirichlet Allocation (LDA),当用于从语料库中提取主题时,会返回在字典单词上具有不同概率分布的不同主题。

而潜在语义索引(LSI)在每次迭代后给出相同的主题和相同的分布。

实际上,LDA 被广泛用于提取主题。如果每次分类都返回不同的主题分布,LDA 如何保持一致性?

考虑这个简单的例子。取文档样本,其中 D 表示文档:

每行代表一个文档。在上述语料库中,LDA 模型用于从文档中生成主题。Gensim 用于 LDA,执行批量 LDA,其中选择的主题数为 4,通过数为 20。

现在在原始语料库上执行批量 LDA,20 次通过后生成的主题是:

现在批量 LDA 再次在相同的原始语料库上执行,在这种情况下生成的主题是:

在这两种情况下,每个主题中的单词分布都不相同。事实上,词的分布从来都不一样。

那么,如果 LDA 在 LSI 等主题中没有相同的词分布,它如何有效地工作呢?

0 投票
1 回答
6098 浏览

java - 我们如何决定潜在语义分析的维数?

我最近一直在研究潜在语义分析。我通过使用 Jama 包在 java 中实现了它。

这是代码:

但是我们如何确定维数呢?有没有一种方法来确定系统应该减少到的维数以获得最佳结果?对于 LSA 的有效性能,我们还考虑了哪些其他参数?

0 投票
1 回答
190 浏览

lisp - 潜在语义索引的 Common Lisp 实现

是否有可用的潜在语义索引的免费 Common Lisp 实现?我想将该功能集成到现有的 Lisp 系统中。

0 投票
1 回答
1537 浏览

python - Python差异中的潜在语义分析

我正在尝试使用以下代码关注关于 Python 中潜在语义索引的维基百科文章:

数学表明它应该如何工作:

什么有效,数学看起来不正确:(从这里

当我能找到的关于 LSA 数学的所有内容都显示第一个正确时,为什么路由有效,而第一个无效?我觉得我错过了一些明显的东西......