问题标签 [lsa]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

119 问题

0 投票

1 回答

13247 浏览

python - Python LSA with Sklearn

I'm currently trying to implement LSA with Sklearn to find synonyms in multiple Documents. Here is my Code:

Now here is my Problem: the Shape of the Term-DOcument Matrix and the tf-idf Matrix are the same, which is (27,3099). 27 Documents and 3099 words. After the Single Value Decomposition the shape of the Matrix is (27,27). I know you can calculate the cosine-similarity from 2 rows to get there similarity, but i don't think i can get the similiarity of 2 words in my documents by doing that with the SVD-Matrix.

Can someone explain to me what the SVD-Matrix represents and in which ever way i can use that to find synonyms in my Documents?

Thanks in advance.

python scikit-learn lsa

2015-06-02T08:21:37.353

0 投票

1 回答

1529 浏览

r - 在 R 中使用 lsa 包 - Ops.simple_triplet_matrix(m, 1) 中的错误：尺寸不兼容

我正在尝试学习在 R 中使用 lsa 包。我正在使用比下面的示例更大的数据集，但这是出于可重复性的目的（此人在他的网站上发布此代码的道具，这是一个很好的资源）。

我收到一条奇怪的错误消息，似乎无法解决：

下面是我正在修改的一些代码：

我可以毫无问题地生成语料库，并且可以将其转换为术语文档矩阵。当我定义 dt.mat.lsa 时触发错误。

回溯如下：

因此，我的主要问题是：

为什么我会收到此错误？
如何修复我的代码以避免此类错误？

提前感谢您在这里提供的任何帮助；这是我的第一篇文章，所以也欢迎对我的问题质量提供反馈！

r text-mining lsa latent-semantic-analysis

2015-06-09T15:41:24.160

0 投票

0 回答

21 浏览

taxonomy - 在一组术语之间创建层次关系

我需要通过挖掘网络在一组术语（可能是实体、名词等）之间形成层次关系。这符合分类法，但是我需要能够以有意义的方式链接专有名词（人）和实体。

例如：

应该链接为

我该怎么做呢？

taxonomy text-mining lda topic-modeling lsa

2015-06-17T04:24:45.580

0 投票

1 回答

456 浏览

r - R-降维LSA

我正在关注一个svd的例子，但我仍然不知道如何减少最终矩阵的维度：

但recon仍然具有相同的维度。我需要将其用于语义分析。

r pca svd dimensionality-reduction lsa

2015-07-12T15:54:45.430

0 投票

2 回答

1471 浏览

r - 术语文档矩阵中的 SVD 没有给我想要的值

我试图在一篇名为“LSA 简介”的论文中复制一个示例： LSA 简介

在示例中，它们具有以下术语文档矩阵：

然后他们应用 SVD 并得到以下结果：

为了复制这一点，我编写了以下 R 代码：

我得到了相同的术语文档矩阵，实际上获得了相同的相关性：

但是我尝试将 SVD 应用于矩阵，唯一相等的值是特征值，我无法得到他们在论文中得到的值。

我错过了什么吗？

此致

编辑：

假设在示例中，维度被减少并且他们删除了较少的特征值。我的问题是我在 SVD 之后得到的相关性与示例中的相关性不同：

r matrix text-mining svd lsa

2015-10-13T21:20:09.497

0 投票

1 回答

105 浏览

information-retrieval - LSI中的SVD在Introduction to Information Retrieval一书中

在Introduction to Information Retrieval一书的示例18.4中。术语-文档矩阵使用 SVD 分解。我的问题是为什么 Σ 在示例中是 5*5 矩阵？不应该是5*6的矩阵吗？这是错的吗？

这是《信息检索简介》一书第 18 章的链接。谢谢！

information-retrieval lsa

2015-11-11T01:28:52.217

0 投票

0 回答

87 浏览

nlp - Gensim 在处理维基百科语料库时是否处理多字词？

我正在阅读英文维基百科上的实验教程，并注意到 LSA 和 LDA 生成的许多主题包含已明确连接的多词术语，例如northamerica、hockeyarchives

有人可以指出这发生在哪里。我看过gensim.scripts.make_wiki、gensim.corpora.wikicorpus和genesis.utils。

nlp lda gensim topic-modeling lsa

2016-01-06T15:52:28.467

0 投票

1 回答

479 浏览

r - 比较存储在 R 中 2 列的每一行中的文本

我有 2 个向量
a=c("abc","def","ghi","jkl")
b=c("abc","dez","gyx","mno")

如何获得余弦值来比较相应的条目？在这种情况下，我需要能够说每个向量中的第一个条目完全相似，每个向量中的第二个条目稍微相似......并且每个向量中的最后一个条目完全不同？我尝试了 lsa 包 - 但我可以获得整体余弦值

r text-mining cosine-similarity lsa

2016-02-24T15:38:30.850

0 投票

1 回答

225 浏览

python - 文本聚类应用意义

在 scikit-learn 网站上有一个将 k-means 应用于文本挖掘的示例。感兴趣的摘录如下：

（示例链接）

我的第一个问题是关于 km.cluster_centers_。每个术语实际上是一个维度，因此每个术语的集群中心值是每个集群在术语维度中的“位置”。这些值是否已排序，因为每个术语维度中特定术语的较高值代表该术语代表集群的“强度”？如果是这样，请解释为什么会这样。

其次，该算法提供了在聚类之前对术语文档矩阵执行 LSA 的选项。我可以假设这有助于通过维度的正交性来提高每个集群的唯一性吗？或者还有其他的东西吗？在聚类之前执行 SVD 是典型的吗？

提前致谢！

python text scikit-learn cluster-analysis lsa

2016-03-09T15:11:45.597

0 投票

1 回答

897 浏览

python - 如何使用 TF-IDF 或 LSA 和 gensim 计算单词相似度？

我知道 gensim 中的 word2vec 可以计算单词之间的相似度。但现在我想使用 TF-IDF 或 LSA 和gensim来计算单词相似度。怎么做？

注意：使用 LSA 和 gensim 计算文档相似度很容易：http ://radimrehurek.com/gensim/wiki.html

python nlp tf-idf gensim lsa

2016-03-14T06:49:59.340

1 2 3 4 5 6 7 8 9 10