“lsa”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

605 浏览

java - 如何在管道中的 Spark DataFrame 上运行 LSA/SVD？

我希望能够使用 Spark 2.0+ 的管道功能来构建我的模型，但我不知道如何将 LSA/SVD 合并到我的管道中。我知道 RDD 上的功能，但我不相信可以将其合并到 Spark.ml 管道中。

我希望能够做这样的事情：

我知道使用 PCA 可以做到这一点。有没有办法用 SVD/LSA 完成它？

2017-04-13T22:26:05.373

0 投票

1 回答

155 浏览

r - 如何访问R中textmatrix中的单个文档

我在 R 中有一个文本矩阵，如下所示：

我正在尝试从训练和测试数据中创建一个文本矩阵。如何访问不同的文档列以放入另一个文本矩阵？

r lsa

2017-04-27T22:51:42.797

0 投票

0 回答

4590 浏览

r - 检查 TermDocumentMatrix 以获取 R 中单词/术语的完整列表

我正在尝试使用inspect(TermDocumentMatrix())获取文本文档之间的单词/术语频率列表（在 R 中）

使用来自的示例代码?TermDocumentMatrix：

现在，我可以检查这些：

结果是：

但是，我想要更长的术语列表......我怎样才能得到这个？

我试过myinspection = inspect(tdm[1:1000, 1:5])了，但它没有让我到任何地方

r tm lsa

2017-05-02T23:41:13.627

0 投票

0 回答

1034 浏览

java - java.lang.NoClassDefFoundError: org/apache/lucene/index/CorruptIndexException

我尝试使用 TML 库实现 LSA 语义搜索。这是我的代码，其中 rep1 是我创建的文件夹，而 dossier 是我放置 txt 文档的文件夹。

但我有这个错误！

提前致谢

java lucene lsa

2017-05-16T09:27:02.147

0 投票

1 回答

470 浏览

java - 为弹性搜索索引实现 LSA

在过去的几天里，我一直在为在 elasticsearch 中索引的文档实施潜在语义分析。第一步是构建术语文档矩阵。所以我认为使用将索引作为输入的 stanford nlp 库含义小写，删除停用词，可能是词干并生成矩阵，或者只是可以使用 elasticsearch java api 来构建它?

java stanford-nlp elasticsearch-plugin elasticsearch-5 lsa

2017-05-19T10:55:36.043

0 投票

0 回答

111 浏览

谁能帮我发现问题？我需要计算查询和文档集合之间的相似度，并且我已经使用了该程序：https://github.com/aliabbasrizvi/LatentSemanticIndexing][1]。在这个程序中，相似度是通过“点积”计算的，我将其更改为“余弦相似度”，但我得到了很高的相似度分数，而我应该在 0 和 1 之间得到它。谁能告诉我出了什么问题？TF_IDF有什么作用吗？或者是其他东西？

我得到的那些结果”

文档：b4，相关度得分：2.185808108221954
文档：h286，相关分数：1.1350011283882473E-16

这是我用于相似性的代码”

java tf-idf svd cosine-similarity lsa

2017-05-19T11:57:16.390

0 投票

1 回答

231 浏览

scala - Scala 将 [Seq[string] 转换为 [String]？（词形还原后的 TF-IDF）

我尝试学习 scala 和特别是文本挖掘（词形还原、TF-IDF 矩阵和 LSA）。

我有一些文本要词形化并进行分类（LSA）。我在cloudera上使用火花。

所以我使用了 stanfordCore NLP 函数：

之后，我尝试制作一个 TF-IDF 矩阵，但这是我的问题：斯坦福函数以 [Seq[string] 形式制作 RDD。但是，我有一个错误。我需要使用 [String] 形式的 RDD（而不是 [Seq[string]] 形式）。

有人知道如何将 [Seq[string]] 转换为 [String]？

或者我需要更改我的一项要求？

谢谢您的帮助。对不起，如果这是一个愚蠢的问题和英语。

再见

scala tf-idf lemmatization lsa

2017-07-16T13:28:40.213

0 投票

2 回答

477 浏览

gensim - LSI 相似性模型的最佳文档大小

我正在使用 Gensim 的优秀库来计算使用 LSI 的语料库上的相似性查询。但是，我有一种明显的感觉，结果可能会更好，我正在尝试弄清楚我是否可以调整语料库本身以改善结果。

我对如何拆分文档有一定的控制权。我的原始数据有很多非常短的文档（文档中的平均长度是 12 个单词，但存在 1-2 个单词长的文档......），并且有几种逻辑方法可以将多个文档连接成一个。问题是我不知道这样做是否值得（如果值得，在多大程度上）。我找不到任何材料来解决这个问题，而只是关于语料库的大小和词汇量的大小。我认为这是因为归根结底，文档的大小受词汇量的限制。但我确信仍然有一些通用的指导方针可以帮助做出这个决定。

什么被认为是太短的文件？什么是太长了？（我假设后者是的函数|V|，但前者很容易成为一个常数值。）

这个事情谁有经验？谁能指出我解决这个问题的任何论文/博客文章/研究的方向？非常感激！

编辑添加： 关于对文档进行分组的策略 - 每个文档都是两方之间发送的文本消息。潜在的分组基于此，我还可以考虑发送消息的时间。意思是，我可以将 A 和 B 之间在某个小时内或某天发送的所有消息分组，或者只是将两者之间的所有消息分组。我还可以决定组合在一起的消息的最小或最大数量，但这正是我的问题所在 - 我怎么知道理想的长度是多少？

gensim lsa

2017-08-08T16:08:35.590

0 投票

1 回答

847 浏览

python-3.x - 将文档添加到 gensim 模型

我有一个包含计算 LSI 相似度所需的各种对象的类：

我现在想向类添加一个函数，以允许将文档添加到语料库并相应地更新模型。我发现dictionary.add_documents, 和model.add_documents，但有两件事我不清楚：

当您最初创建 LSI 模型时，函数接收的参数之一是id2word=dictionary. 更新模型时，如何告诉它使用更新后的字典？它实际上是不必要的，还是会有所作为？
如何更新索引？从文档中可以看出，如果我使用Similarity类而不是MatrixSimilarity类，我可以将文档添加到索引中，但我看不到MatrixSimilarity. 如果我理解正确，那么MatrixSimilarity如果我的输入语料库包含密集向量会更好（确实如此，因为我使用的是 LSI 模型）。我是否必须将其更改为Similarity才能更新索引？或者，相反，创建这个索引的复杂性是什么？如果它无关紧要，我是否应该使用更新的语料库创建一个新索引，如下所示：

代码：

谢谢。:)

python-3.x gensim lsa

2017-08-15T16:12:28.810

0 投票

0 回答

78 浏览

python - python - 如何使用nltk从python列表列中找到减少相似词？

我在熊猫中有一个专栏，如下所示

我想找到相似的词并减少到几个词来表示列，即减少相似的词并使用最常见的词。

输入：

输出：

提前致谢

python pandas nltk wordnet lsa

2017-10-15T21:52:38.703

问题标签 [lsa]

java - 如何在管道中的 Spark DataFrame 上运行 LSA/SVD？

r - 如何访问R中textmatrix中的单个文档

r - 检查 TermDocumentMatrix 以获取 R 中单词/术语的完整列表

java - java.lang.NoClassDefFoundError: org/apache/lucene/index/CorruptIndexException

java - 为弹性搜索索引实现 LSA

java - 我如何使用 jama 计算余弦相似度

scala - Scala 将 [Seq[string] 转换为 [String]？（词形还原后的 TF-IDF）

gensim - LSI 相似性模型的最佳文档大小

python-3.x - 将文档添加到 gensim 模型

python - python - 如何使用nltk从python列表列中找到减少相似词？

问题标签 [lsa]

Reference