问题标签 [lsa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
356 浏览

r - R LSA LSAFUN 结尾问题

我想使用genericSummarypackage 中的函数LSAfun。这是德语示例文本。

我的文本编码是“UTF-8”。实际上,这个示例文本的编码是“latin1”。因此我转换为 utf8

当我打电话

我收到以下错误:

有谁知道如何解决这个问题?

0 投票
1 回答
41 浏览

python - 如何仅检索与用户输入匹配的列表元素?

我需要从用户那里获取输入,并且只有那组单词应该在输入字符串出现的地方返回给我。例如,如果我搜索人,那么只有出现人的那些词组应该被检索为输出。

这是我的示例输出:

这是我的预期输出:

0 投票
1 回答
670 浏览

python - gensim 文档相似度:如何从最相似的结果中获取文档标题?

我正在使用gensim分析大型语料库中的文档相似性。每个文档都有一个“标题”,或者更具体地说,一个唯一的 ID 字符串以及内容文本。

在浏览了几个关于顶级建模索引和检索以及维基百科的教程之后,我仍然不清楚的是如何获得可解释的结果来构建 LSI 模型,并在索引中查询一些搜索向量。在我看到前 N 个最相似的文档索引及其相似度分数后,我如何查找这些文档的标题

例如,在这段代码中:

例如,我将如何查找以最相似结果返回的文档 #61938 的标题?

在该教程的前一部分中,该iter_wiki()函数产生了一个 (title, tokens) 的元组。这title就是我想要的。

0 投票
0 回答
279 浏览

python - 如何从文件中仅检索名词并将它们作为数组传递给 LSA?

我只需要提取那些标签与程序的 pos-tags 变量匹配的单词,并将这些单词传递给 LSI 模型,但是当我打印名词时,我得到一个空列表。

这是我的名词文件示例输入:

这是我的示例代码:

0 投票
0 回答
62 浏览

java - 在Java中计算两个单词的概念和关系相似度

我正在根据这篇论文在 Java 中实现一个可读性公式。

我已经到了必须计算两个或多个单词的概念和关系相似性的地步。

他们说:

我们使用潜在语义分析 (LSA) 工具来计算单词相似度。LSA 可以从单词文档共现矩阵中获取语义信息,包括相似性。在扫描整个语料库的固定大小的移动窗口中计算单词/术语共现。使用 +-1 和 +-4 窗口大小的共现模型分别被认为是关系相似性和概念语义模型。

我试图查看 LSA 的一些实现,比如这个,但是找不到一种直接的方法来获得我想要的东西。

我应该有一个基于单词的矩阵,所以我尝试使用 WS4J 库来计算基于两个字符串数组的矩阵。

WS4J 也有一个方法calcRelatednessOfWords(),但它得到的结果与论文中显示的不匹配。

有没有提供我想要的图书馆?或者谁能​​指出我正确的方向?

0 投票
1 回答
654 浏览

python - How to get the vector representation of a word using a trained SVD model

I have trained (fit and transform) a SVD model using 400 documents as part of my effort to build a LSA model. Here is my code:

Now, I want to measure the similarity of two sentences (whether from the same document collection or totally new) and I need to transform these two sentences into vectors. I want to do the transformation in my own way and I need to have the vector of each word in sentence.

How can I find the vector of a word using the lsa_model that I already trained?

And, more broadly speaking, does it make sense to build a LSA model using a collection of documents and then use the same model for measuring the similarity of some sentences from the same document collection?

0 投票
0 回答
251 浏览

cluster-analysis - LSA 和 K 表示在文档聚类中,结果打印不正确

我最近使用 LSA 然后 Kmeans 进行了一些文档聚类。但是,当我尝试打印每个集群中最重要的单词时,我得到了非常奇怪的结果,它打印的单词甚至不低于该集群。

下面是代码和输出:

然而,输出如下:

即使在大多数这些集群中,能力这个词也没有,有人能指出我做错了什么吗?

0 投票
0 回答
564 浏览

scikit-learn - 潜在语义分析:如何选择组件号来执行截断SVD

我正在练习使用 LSA 对安然数据集(所有电子邮件)进行分类。我的理解是要成功执行任何进一步的分类或聚类,我需要使用 TruncatedSVD 执行较低等级的近似以最大化方差。

我已经完成了我能想到的所有预处理,包括 1)删除所有标点符号 2)删除少于 2 个字符的单词 3)删除文本大小小于 1500 字节的文档(tfidf 对较长的文本效果更好) 4)删除停用词

但是,如果我将每个 SKlearn 建议的 LSA 组件设置为 100,我只能得到 35% 的方差(svd.explained_variance_ratio_.sum())。我尝试使用 component = 2000,并且可以得到 80%。(我在某处读到说需要按照建议获得 90% 的方差?)

所以我的问题是要执行一个成功的 LSA,1)如何测试和挑选组件的数量 2)高组件数量是否正常?3)我能做些什么来增加方差,同时保持组件数量低?

0 投票
0 回答
770 浏览

python - TruncatedSVD 中的解释方差

当我试图了解 LSA 时,我发现我无法使用 SVD 从 TruncatedSVD 重现结果。为什么这不起作用。

谢谢您的帮助。

0 投票
1 回答
871 浏览

python - 潜在语义分析结果

我正在关注 LSA 的教程并将示例切换到不同的字符串列表,我不确定代码是否按预期工作。

当我使用教程中给出的示例输入时,它会产生合理的答案。但是,当我使用自己的输入时,会得到非常奇怪的结果。

为了比较,以下是示例输入的结果:

在此处输入图像描述

当我使用自己的示例时,结果就是这样。另外值得注意的是,我似乎没有得到一致的结果:

在此处输入图像描述

在此处输入图像描述

任何帮助弄清楚为什么我会得到这些结果将不胜感激:)

这是代码: