问题标签 [latent-semantic-indexing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
8431 浏览

java - 任何潜在语义索引?

Java中是否有任何LSI的开源实现?我想将该库用于我的项目。我见过 jLSI,但它实现了其他一些 LSI 模型。我想要一个标准模型。

0 投票
2 回答
820 浏览

algorithm - 潜在语义索引

据说通过 LSI,产生 U、A 和 V 的矩阵,它们将具有同义词的文档汇集在一起​​。例如,如果我们搜索“汽车”,我们也会得到包含“汽车”的文档。但是 LSI 只不过是对矩阵的操作。它只考虑频率,而不考虑语义。那么我想念的这个魔法背后的东西是什么?请解释。

0 投票
2 回答
4492 浏览

java - 在潜在语义索引方面需要帮助

对不起,如果我的问题听起来很愚蠢:) 你能推荐我任何伪代码或 Java 中 LSI 实现的好算法吗?我不是数学专家。我试图阅读维基百科和其他网站上关于 LSI(潜在语义索引)的一些文章,它们充满了数学。我知道 LSI 充满了数学。但如果我看到一些源代码或算法。我更容易理解事情。这就是我在这里问的原因,因为这里有很多 GURU!提前致谢

0 投票
2 回答
190 浏览

math - lsi 的问题

我正在使用潜在语义分析来进行文本相似性。我有 2 个问题。

  1. 降维如何选择K值?

  2. 我读了很多 LSI 用于类似含义的词的地方,例如汽车和汽车。这怎么可能???我在这里缺少什么神奇的步骤?

0 投票
0 回答
903 浏览

web - 对网站进行分类 - 开源 LSI?

我希望对许多网站(数百万)进行分类。我可以使用 Nutch 抓取它们并获取网站的内容,但我正在寻找最好的(也是最便宜或免费的)工具来对它们进行分类。

一种选择是创建正则表达式来查找某些关键字并对站点进行分类,但也有像 Autonomy 这样的高端 LSI 类型工具。是否有任何开源或更便宜的工具可以从网页/站点获取文本并为我分类?我需要对使用的类别类型进行一些自定义。作为分类的一部分,我希望能够识别“假”网站,这些网站实际上只是停放的页面,或者在页面上放置广告的域名所有者以及普通的旧类别,比如新闻、体育、科学、健康、美食、娱乐等……

0 投票
1 回答
218 浏览

svd - 潜在语义索引

我试图找出如何在 LSI 中执行 SVD 实现后生成的矩阵的乘法。我的研究需要这个。我想进行文档聚类。

0 投票
1 回答
466 浏览

nlp - 用于潜在语义分析的“预建”矩阵

我想为我正在构建的一个小应用程序使用潜在语义分析,但我不想自己构建矩阵。(部分是因为我所拥有的文档不会成为一个很好的训练集,因为它们有点短且异类,部分是因为我刚买了一台新计算机,我发现安装线性代数之类的东西很糟糕我需要的图书馆。)

是否有任何“默认”/预构建的 LSA 实现可用?例如,我正在寻找的东西包括:

  • 默认 U,S,V 矩阵(即,如果 D 是来自某个训练集的术语文档矩阵,则 D = USV^T 是奇异值分解),因此给定任何查询向量 q,我可以使用这些矩阵自己计算 q 的 LSA 投影。
  • 一些黑盒 LSA 算法,给定一个查询向量 q,返回 q 的 LSA 投影。
0 投票
2 回答
1449 浏览

lucene - 如何从文本语料库中提取语义相关性

目标是评估大型文本语料库中术语之间的语义相关性,例如,“police”和“crime”应该比“police”和“mountain”具有更强的语义相关性,因为它们倾向于在相同的上下文中同时出现。

我读过的最简单的方法是从语料库中提取IF-IDF信息。

很多人使用潜在语义分析来寻找语义相关性。

我遇到了 Lucene 搜索引擎: http: //lucene.apache.org/

你认为提取IF-IDF合适吗?

在技​​术和软件工具方面(偏爱 Java),你会建议我做什么?

提前致谢!

穆龙

0 投票
3 回答
7341 浏览

python - 在 python 中使用 gensim 的 LSI

我正在使用 Python 的 gensim 库进行潜在语义索引。我按照网站上的教程进行操作,效果很好。现在我正在尝试对其进行一些修改;每次添加文档时,我都想运行 lsi 模型。

这是我的代码:

geturls 是我编写的函数,它将网站的内容作为字符串返回。同样,如果我等到处理完所有文档后再执行 tfidf 和 lsi,它会起作用,但这不是我想要的。我想在每次迭代中都这样做。不幸的是,我收到此错误:

通常错误会在第二个文档上弹出。我想我明白它在告诉我什么(字典索引不好),我只是不知道为什么。我尝试了很多不同的东西,但似乎没有任何效果。有谁知道发生了什么?

谢谢!

0 投票
1 回答
4296 浏览

nlp - Probabilistic latent semantic analysis/Indexing - Introduction

But recently I found this link quite helpful to understand the principles of LSA without too much math. http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html. It forms a good basis on which I can build further.

currently, I'm looking out for a similar introduction to Probabilistic Latent Semantic Analysis/Indexing. Less of math and more of examples explaining the principles behind it. If you would know such an introduction, please let me know.

Can it be used to find the measure of similarity between sentences? Does it handle polysemy?

Is there a python implementation for the same?

Thank you.