问题标签 [lsa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
13247 浏览

python - Python LSA with Sklearn

I'm currently trying to implement LSA with Sklearn to find synonyms in multiple Documents. Here is my Code:

Now here is my Problem: the Shape of the Term-DOcument Matrix and the tf-idf Matrix are the same, which is (27,3099). 27 Documents and 3099 words. After the Single Value Decomposition the shape of the Matrix is (27,27). I know you can calculate the cosine-similarity from 2 rows to get there similarity, but i don't think i can get the similiarity of 2 words in my documents by doing that with the SVD-Matrix.

Can someone explain to me what the SVD-Matrix represents and in which ever way i can use that to find synonyms in my Documents?

Thanks in advance.

0 投票
1 回答
1529 浏览

r - 在 R 中使用 lsa 包 - Ops.simple_triplet_matrix(m, 1) 中的错误:尺寸不兼容

我正在尝试学习在 R 中使用 lsa 包。我正在使用比下面的示例更大的数据集,但这是出于可重复性的目的(此人在他的网站上发布此代码的道具,这是一个很好的资源)。

我收到一条奇怪的错误消息,似乎无法解决:

下面是我正在修改的一些代码:

我可以毫无问题地生成语料库,并且可以将其转换为术语文档矩阵。当我定义 dt.mat.lsa 时触发错误。

回溯如下:

因此,我的主要问题是:

  1. 为什么我会收到此错误?
  2. 如何修复我的代码以避免此类错误?

提前感谢您在这里提供的任何帮助;这是我的第一篇文章,所以也欢迎对我的问题质量提供反馈!

0 投票
0 回答
21 浏览

taxonomy - 在一组术语之间创建层次关系

我需要通过挖掘网络在一组术语(可能是实体、名词等)之间形成层次关系。这符合分类法,但是我需要能够以有意义的方式链接专有名词(人)和实体。

例如:

应该链接为

我该怎么做呢?

0 投票
1 回答
456 浏览

r - R-降维LSA

我正在关注一个svd的例子,但我仍然不知道如何减少最终矩阵的维度:

recon仍然具有相同的维度。我需要将其用于语义分析。

0 投票
2 回答
1471 浏览

r - 术语文档矩阵中的 SVD 没有给我想要的值

我试图在一篇名为“LSA 简介”的论文中复制一个示例: LSA 简介

在示例中,它们具有以下术语文档矩阵:

在此处输入图像描述

然后他们应用 SVD 并得到以下结果:

在此处输入图像描述

为了复制这一点,我编写了以下 R 代码:

我得到了相同的术语文档矩阵,实际上获得了相同的相关性:

但是我尝试将 SVD 应用于矩阵,唯一相等的值是特征值,我无法得到他们在论文中得到的值。

我错过了什么吗?

此致

编辑:

假设在示例中,维度被减少并且他们删除了较少的特征值。我的问题是我在 SVD 之后得到的相关性与示例中的相关性不同:

在此处输入图像描述

0 投票
1 回答
105 浏览

information-retrieval - LSI中的SVD在Introduction to Information Retrieval一书中

在Introduction to Information Retrieval一书的示例18.4中。术语-文档矩阵使用 SVD 分解。我的问题是为什么 Σ 在示例中是 5*5 矩阵?不应该是5*6的矩阵吗?这是错的吗?

这是《信息检索简介》一书第 18 章的链接。谢谢!

0 投票
0 回答
87 浏览

nlp - Gensim 在处理维基百科语料库时是否处理多字词?

我正在阅读英文维基百科上的实验教程,并注意到 LSA 和 LDA 生成的许多主题包含已明确连接的多词术语,例如northamericahockeyarchives

有人可以指出这发生在哪里。我看过gensim.scripts.make_wikigensim.corpora.wikicorpusgenesis.utils

0 投票
1 回答
479 浏览

r - 比较存储在 R 中 2 列的每一行中的文本

我有 2 个向量
a=c("abc","def","ghi","jkl")
b=c("abc","dez","gyx","mno")

如何获得余弦值来比较相应的条目?在这种情况下,我需要能够说每个向量中的第一个条目完全相似,每个向量中的第二个条目稍微相似......并且每个向量中的最后一个条目完全不同?我尝试了 lsa 包 - 但我可以获得整体余弦值

0 投票
1 回答
225 浏览

python - 文本聚类应用意义

在 scikit-learn 网站上有一个将 k-means 应用于文本挖掘的示例。感兴趣的摘录如下:

(示例链接

我的第一个问题是关于 km.cluster_centers_。每个术语实际上是一个维度,因此每个术语的集群中心值是每个集群在术语维度中的“位置”。这些值是否已排序,因为每个术语维度中特定术语的较高值代表该术语代表集群的“强度”?如果是这样,请解释为什么会这样。

其次,该算法提供了在聚类之前对术语文档矩阵执行 LSA 的选项。我可以假设这有助于通过维度的正交性来提高每个集群的唯一性吗?或者还有其他的东西吗?在聚类之前执行 SVD 是典型的吗?

提前致谢!

0 投票
1 回答
897 浏览

python - 如何使用 TF-IDF 或 LSA 和 gensim 计算单词相似度?

我知道 gensim 中的 word2vec 可以计算单词之间的相似度。但现在我想使用 TF-IDF 或 LSA 和gensim来计算单词相似度。怎么做?

注意:使用 LSA 和 gensim 计算文档相似度很容易:http ://radimrehurek.com/gensim/wiki.html