问题标签 [lsa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
605 浏览

java - 如何在管道中的 Spark DataFrame 上运行 LSA/SVD?

我希望能够使用 Spark 2.0+ 的管道功能来构建我的模型,但我不知道如何将 LSA/SVD 合并到我的管道中。我知道 RDD 上的功能,但我不相信可以将其合并到 Spark.ml 管道中。

我希望能够做这样的事情:

我知道使用 PCA 可以做到这一点。有没有办法用 SVD/LSA 完成它?

0 投票
1 回答
155 浏览

r - 如何访问R中textmatrix中的单个文档

我在 R 中有一个文本矩阵,如下所示:

文本矩阵

我正在尝试从训练和测试数据中创建一个文本矩阵。如何访问不同的文档列以放入另一个文本矩阵?

0 投票
0 回答
4590 浏览

r - 检查 TermDocumentMatrix 以获取 R 中单词/术语的完整列表

我正在尝试使用inspect(TermDocumentMatrix())获取文本文档之间的单词/术语频率列表(在 R 中)

使用来自的示例代码?TermDocumentMatrix

现在,我可以检查这些:

结果是:

但是,我想要更长的术语列表......我怎样才能得到这个?

我试过myinspection = inspect(tdm[1:1000, 1:5])了,但它没有让我到任何地方

0 投票
0 回答
1034 浏览

java - java.lang.NoClassDefFoundError: org/apache/lucene/index/CorruptIndexException

我尝试使用 TML 库实现 LSA 语义搜索。这是我的代码,其中 rep1 是我创建的文件夹,而 dossier 是我放置 txt 文档的文件夹。

但我有这个错误!

提前致谢

0 投票
1 回答
470 浏览

java - 为弹性搜索索引实现 LSA

在过去的几天里,我一直在为在 elasticsearch 中索引的文档实施潜在语义分析。第一步是构建术语文档矩阵。所以我认为使用将索引作为输入的 stanford nlp 库含义小写,删除停用词,可能是词干并生成矩阵,或者只是可以使用 elasticsearch java api 来构建它?

0 投票
0 回答
111 浏览

java - 我如何使用 jama 计算余弦相似度

谁能帮我发现问题?我需要计算查询和文档集合之间的相似度,并且我已经使用了该程序:https://github.com/aliabbasrizvi/LatentSemanticIndexing][1]。在这个程序中,相似度是通过“点积”计算的,我将其更改为“余弦相似度”,但我得到了很高的相似度分数,而我应该在 0 和 1 之间得到它。谁能告诉我出了什么问题?TF_IDF有什么作用吗?或者是其他东西?

我得到的那些结果”

  1. 文档:b4,相关度得分:2.185808108221954

  2. 文档:h286,相关分数:1.1350011283882473E-16

这是我用于相似性的代码”

0 投票
1 回答
231 浏览

scala - Scala 将 [Seq[string] 转换为 [String]?(词形还原后的 TF-IDF)

我尝试学习 scala 和特别是文本挖掘(词形还原、TF-IDF 矩阵和 LSA)。

我有一些文本要词形化并进行分类(LSA)。我在cloudera上使用火花。

所以我使用了 stanfordCore NLP 函数:

之后,我尝试制作一个 TF-IDF 矩阵,但这是我的问题:斯坦福函数以 [Seq[string] 形式制作 RDD。但是,我有一个错误。我需要使用 [String] 形式的 RDD(而不是 [Seq[string]] 形式)。

有人知道如何将 [Seq[string]] 转换为 [String]?

或者我需要更改我的一项要求?

谢谢您的帮助。对不起,如果这是一个愚蠢的问题和英语。

再见

0 投票
2 回答
477 浏览

gensim - LSI 相似性模型的最佳文档大小

我正在使用 Gensim 的优秀库来计算使用 LSI 的语料库上的相似性查询。但是,我有一种明显的感觉,结果可能会更好,我正在尝试弄清楚我是否可以调整语料库本身以改善结果。

我对如何拆分文档有一定的控制权。我的原始数据有很多非常短的文档(文档中的平均长度是 12 个单词,但存在 1-2 个单词长的文档......),并且有几种逻辑方法可以将多个文档连接成一个。问题是我不知道这样做是否值得(如果值得,在多大程度上)。我找不到任何材料来解决这个问题,而只是关于语料库的大小和词汇量的大小。我认为这是因为归根结底,文档的大小受词汇量的限制。但我确信仍然有一些通用的指导方针可以帮助做出这个决定。

什么被认为是太短的文件?什么是太长了?(我假设后者是 的函数|V|,但前者很容易成为一个常数值。)

这个事情谁有经验?谁能指出我解决这个问题的任何论文/博客文章/研究的方向?非常感激!

编辑添加: 关于对文档进行分组的策略 - 每个文档都是两方之间发送的文本消息。潜在的分组基于此,我还可以考虑发送消息的时间。意思是,我可以将 A 和 B 之间在某个小时内或某天发送的所有消息分组,或者只是将两者之间的所有消息分组。我还可以决定组合在一起的消息的最小或最大数量,但这正是我的问题所在 - 我怎么知道理想的长度是多少?

0 投票
1 回答
847 浏览

python-3.x - 将文档添加到 gensim 模型

我有一个包含计算 LSI 相似度所需的各种对象的类:

我现在想向类添加一个函数,以允许将文档添加到语料库并相应地更新模型。我发现dictionary.add_documents, 和model.add_documents,但有两件事我不清楚:

  1. 当您最初创建 LSI 模型时,函数接收的参数之一是id2word=dictionary. 更新模型时,如何告诉它使用更新后的字典?它实际上是不必要的,还是会有所作为?
  2. 如何更新索引?从文档中可以看出,如果我使用Similarity类而不是MatrixSimilarity类,我可以将文档添加到索引中,但我看不到MatrixSimilarity. 如果我理解正确,那么MatrixSimilarity如果我的输入语料库包含密集向量会更好(确实如此,因为我使用的是 LSI 模型)。我是否必须将其更改为Similarity才能更新索引?或者,相反,创建这个索引的复杂性是什么?如果它无关紧要,我是否应该使用更新的语料库创建一个新索引,如下所示:

代码:

谢谢。:)

0 投票
0 回答
78 浏览

python - python - 如何使用nltk从python列表列中找到减少相似词?

我在熊猫中有一个专栏,如下所示

我想找到相似的词并减少到几个词来表示列,即减少相似的词并使用最常见的词。

输入:

输出:

提前致谢