“lsa”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

356 浏览

r - R LSA LSAFUN 结尾问题

我想使用genericSummarypackage 中的函数LSAfun。这是德语示例文本。

我的文本编码是“UTF-8”。实际上，这个示例文本的编码是“latin1”。因此我转换为 utf8

当我打电话

我收到以下错误：

有谁知道如何解决这个问题？

r encoding linguistics lsa

2017-11-02T09:22:06.707

0 投票

1 回答

41 浏览

python - 如何仅检索与用户输入匹配的列表元素？

我需要从用户那里获取输入，并且只有那组单词应该在输入字符串出现的地方返回给我。例如，如果我搜索人，那么只有出现人的那些词组应该被检索为输出。

这是我的示例输出：

这是我的预期输出：

python string arraylist lda lsa

2017-12-15T19:26:19.450

0 投票

1 回答

670 浏览

python - gensim 文档相似度：如何从最相似的结果中获取文档标题？

我正在使用gensim分析大型语料库中的文档相似性。每个文档都有一个“标题”，或者更具体地说，一个唯一的 ID 字符串以及内容文本。

在浏览了几个关于顶级建模、索引和检索以及维基百科的教程之后，我仍然不清楚的是如何获得可解释的结果来构建 LSI 模型，并在索引中查询一些搜索向量。在我看到前 N 个最相似的文档索引及其相似度分数后，我如何查找这些文档的标题？

例如，在这段代码中：

例如，我将如何查找以最相似结果返回的文档 #61938 的标题？

在该教程的前一部分中，该iter_wiki()函数产生了一个 (title, tokens) 的元组。这title就是我想要的。

python nlp similarity gensim lsa

2017-12-17T21:40:27.267

0 投票

0 回答

279 浏览

python - 如何从文件中仅检索名词并将它们作为数组传递给 LSA？

我只需要提取那些标签与程序的 pos-tags 变量匹配的单词，并将这些单词传递给 LSI 模型，但是当我打印名词时，我得到一个空列表。

这是我的名词文件示例输入：

这是我的示例代码：

python arrays pos-tagger lsa

2017-12-21T12:49:07.527

0 投票

0 回答

62 浏览

java - 在Java中计算两个单词的概念和关系相似度

我正在根据这篇论文在 Java 中实现一个可读性公式。

我已经到了必须计算两个或多个单词的概念和关系相似性的地步。

他们说：

我们使用潜在语义分析 (LSA) 工具来计算单词相似度。LSA 可以从单词文档共现矩阵中获取语义信息，包括相似性。在扫描整个语料库的固定大小的移动窗口中计算单词/术语共现。使用 +-1 和 +-4 窗口大小的共现模型分别被认为是关系相似性和概念语义模型。

我试图查看 LSA 的一些实现，比如这个，但是找不到一种直接的方法来获得我想要的东西。

我应该有一个基于单词的矩阵，所以我尝试使用 WS4J 库来计算基于两个字符串数组的矩阵。

WS4J 也有一个方法calcRelatednessOfWords()，但它得到的结果与论文中显示的不匹配。

有没有提供我想要的图书馆？或者谁能指出我正确的方向？

2018-05-21T16:55:49.350

0 投票

1 回答

654 浏览

python - How to get the vector representation of a word using a trained SVD model

I have trained (fit and transform) a SVD model using 400 documents as part of my effort to build a LSA model. Here is my code:

Now, I want to measure the similarity of two sentences (whether from the same document collection or totally new) and I need to transform these two sentences into vectors. I want to do the transformation in my own way and I need to have the vector of each word in sentence.

How can I find the vector of a word using the lsa_model that I already trained?

And, more broadly speaking, does it make sense to build a LSA model using a collection of documents and then use the same model for measuring the similarity of some sentences from the same document collection?

python scikit-learn svd lsa

2018-06-18T18:12:29.393

0 投票

0 回答

251 浏览