问题标签 [lsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python LSA with Sklearn
I'm currently trying to implement LSA with Sklearn to find synonyms in multiple Documents. Here is my Code:
Now here is my Problem: the Shape of the Term-DOcument Matrix and the tf-idf Matrix are the same, which is (27,3099). 27 Documents and 3099 words. After the Single Value Decomposition the shape of the Matrix is (27,27). I know you can calculate the cosine-similarity from 2 rows to get there similarity, but i don't think i can get the similiarity of 2 words in my documents by doing that with the SVD-Matrix.
Can someone explain to me what the SVD-Matrix represents and in which ever way i can use that to find synonyms in my Documents?
Thanks in advance.
r - 在 R 中使用 lsa 包 - Ops.simple_triplet_matrix(m, 1) 中的错误:尺寸不兼容
我正在尝试学习在 R 中使用 lsa 包。我正在使用比下面的示例更大的数据集,但这是出于可重复性的目的(此人在他的网站上发布此代码的道具,这是一个很好的资源)。
我收到一条奇怪的错误消息,似乎无法解决:
下面是我正在修改的一些代码:
我可以毫无问题地生成语料库,并且可以将其转换为术语文档矩阵。当我定义 dt.mat.lsa 时触发错误。
回溯如下:
因此,我的主要问题是:
- 为什么我会收到此错误?
- 如何修复我的代码以避免此类错误?
提前感谢您在这里提供的任何帮助;这是我的第一篇文章,所以也欢迎对我的问题质量提供反馈!
taxonomy - 在一组术语之间创建层次关系
我需要通过挖掘网络在一组术语(可能是实体、名词等)之间形成层次关系。这符合分类法,但是我需要能够以有意义的方式链接专有名词(人)和实体。
例如:
应该链接为
我该怎么做呢?
r - R-降维LSA
我正在关注一个svd的例子,但我仍然不知道如何减少最终矩阵的维度:
但recon
仍然具有相同的维度。我需要将其用于语义分析。
r - 术语文档矩阵中的 SVD 没有给我想要的值
我试图在一篇名为“LSA 简介”的论文中复制一个示例: LSA 简介
在示例中,它们具有以下术语文档矩阵:
然后他们应用 SVD 并得到以下结果:
为了复制这一点,我编写了以下 R 代码:
我得到了相同的术语文档矩阵,实际上获得了相同的相关性:
但是我尝试将 SVD 应用于矩阵,唯一相等的值是特征值,我无法得到他们在论文中得到的值。
我错过了什么吗?
此致
编辑:
假设在示例中,维度被减少并且他们删除了较少的特征值。我的问题是我在 SVD 之后得到的相关性与示例中的相关性不同:
information-retrieval - LSI中的SVD在Introduction to Information Retrieval一书中
在Introduction to Information Retrieval一书的示例18.4中。术语-文档矩阵使用 SVD 分解。我的问题是为什么 Σ 在示例中是 5*5 矩阵?不应该是5*6的矩阵吗?这是错的吗?
这是《信息检索简介》一书第 18 章的链接。谢谢!
nlp - Gensim 在处理维基百科语料库时是否处理多字词?
我正在阅读英文维基百科上的实验教程,并注意到 LSA 和 LDA 生成的许多主题包含已明确连接的多词术语,例如northamerica、hockeyarchives
有人可以指出这发生在哪里。我看过gensim.scripts.make_wiki、gensim.corpora.wikicorpus和genesis.utils。
r - 比较存储在 R 中 2 列的每一行中的文本
我有 2 个向量
a=c("abc","def","ghi","jkl")
b=c("abc","dez","gyx","mno")
如何获得余弦值来比较相应的条目?在这种情况下,我需要能够说每个向量中的第一个条目完全相似,每个向量中的第二个条目稍微相似......并且每个向量中的最后一个条目完全不同?我尝试了 lsa 包 - 但我可以获得整体余弦值
python - 文本聚类应用意义
在 scikit-learn 网站上有一个将 k-means 应用于文本挖掘的示例。感兴趣的摘录如下:
(示例链接)
我的第一个问题是关于 km.cluster_centers_。每个术语实际上是一个维度,因此每个术语的集群中心值是每个集群在术语维度中的“位置”。这些值是否已排序,因为每个术语维度中特定术语的较高值代表该术语代表集群的“强度”?如果是这样,请解释为什么会这样。
其次,该算法提供了在聚类之前对术语文档矩阵执行 LSA 的选项。我可以假设这有助于通过维度的正交性来提高每个集群的唯一性吗?或者还有其他的东西吗?在聚类之前执行 SVD 是典型的吗?
提前致谢!
python - 如何使用 TF-IDF 或 LSA 和 gensim 计算单词相似度?
我知道 gensim 中的 word2vec 可以计算单词之间的相似度。但现在我想使用 TF-IDF 或 LSA 和gensim来计算单词相似度。怎么做?
注意:使用 LSA 和 gensim 计算文档相似度很容易:http ://radimrehurek.com/gensim/wiki.html