问题标签 [lsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何在管道中的 Spark DataFrame 上运行 LSA/SVD?
我希望能够使用 Spark 2.0+ 的管道功能来构建我的模型,但我不知道如何将 LSA/SVD 合并到我的管道中。我知道 RDD 上的功能,但我不相信可以将其合并到 Spark.ml 管道中。
我希望能够做这样的事情:
我知道使用 PCA 可以做到这一点。有没有办法用 SVD/LSA 完成它?
r - 检查 TermDocumentMatrix 以获取 R 中单词/术语的完整列表
我正在尝试使用inspect(TermDocumentMatrix())
获取文本文档之间的单词/术语频率列表(在 R 中)
使用来自的示例代码?TermDocumentMatrix
:
现在,我可以检查这些:
结果是:
但是,我想要更长的术语列表......我怎样才能得到这个?
我试过myinspection = inspect(tdm[1:1000, 1:5])
了,但它没有让我到任何地方
java - java.lang.NoClassDefFoundError: org/apache/lucene/index/CorruptIndexException
我尝试使用 TML 库实现 LSA 语义搜索。这是我的代码,其中 rep1 是我创建的文件夹,而 dossier 是我放置 txt 文档的文件夹。
但我有这个错误!
提前致谢
java - 为弹性搜索索引实现 LSA
在过去的几天里,我一直在为在 elasticsearch 中索引的文档实施潜在语义分析。第一步是构建术语文档矩阵。所以我认为使用将索引作为输入的 stanford nlp 库含义小写,删除停用词,可能是词干并生成矩阵,或者只是可以使用 elasticsearch java api 来构建它?
java - 我如何使用 jama 计算余弦相似度
谁能帮我发现问题?我需要计算查询和文档集合之间的相似度,并且我已经使用了该程序:https://github.com/aliabbasrizvi/LatentSemanticIndexing][1]。在这个程序中,相似度是通过“点积”计算的,我将其更改为“余弦相似度”,但我得到了很高的相似度分数,而我应该在 0 和 1 之间得到它。谁能告诉我出了什么问题?TF_IDF有什么作用吗?或者是其他东西?
我得到的那些结果”
文档:b4,相关度得分:2.185808108221954
文档:h286,相关分数:1.1350011283882473E-16
这是我用于相似性的代码”
scala - Scala 将 [Seq[string] 转换为 [String]?(词形还原后的 TF-IDF)
我尝试学习 scala 和特别是文本挖掘(词形还原、TF-IDF 矩阵和 LSA)。
我有一些文本要词形化并进行分类(LSA)。我在cloudera上使用火花。
所以我使用了 stanfordCore NLP 函数:
之后,我尝试制作一个 TF-IDF 矩阵,但这是我的问题:斯坦福函数以 [Seq[string] 形式制作 RDD。但是,我有一个错误。我需要使用 [String] 形式的 RDD(而不是 [Seq[string]] 形式)。
有人知道如何将 [Seq[string]] 转换为 [String]?
或者我需要更改我的一项要求?
谢谢您的帮助。对不起,如果这是一个愚蠢的问题和英语。
再见
gensim - LSI 相似性模型的最佳文档大小
我正在使用 Gensim 的优秀库来计算使用 LSI 的语料库上的相似性查询。但是,我有一种明显的感觉,结果可能会更好,我正在尝试弄清楚我是否可以调整语料库本身以改善结果。
我对如何拆分文档有一定的控制权。我的原始数据有很多非常短的文档(文档中的平均长度是 12 个单词,但存在 1-2 个单词长的文档......),并且有几种逻辑方法可以将多个文档连接成一个。问题是我不知道这样做是否值得(如果值得,在多大程度上)。我找不到任何材料来解决这个问题,而只是关于语料库的大小和词汇量的大小。我认为这是因为归根结底,文档的大小受词汇量的限制。但我确信仍然有一些通用的指导方针可以帮助做出这个决定。
什么被认为是太短的文件?什么是太长了?(我假设后者是 的函数|V|
,但前者很容易成为一个常数值。)
这个事情谁有经验?谁能指出我解决这个问题的任何论文/博客文章/研究的方向?非常感激!
编辑添加: 关于对文档进行分组的策略 - 每个文档都是两方之间发送的文本消息。潜在的分组基于此,我还可以考虑发送消息的时间。意思是,我可以将 A 和 B 之间在某个小时内或某天发送的所有消息分组,或者只是将两者之间的所有消息分组。我还可以决定组合在一起的消息的最小或最大数量,但这正是我的问题所在 - 我怎么知道理想的长度是多少?
python-3.x - 将文档添加到 gensim 模型
我有一个包含计算 LSI 相似度所需的各种对象的类:
我现在想向类添加一个函数,以允许将文档添加到语料库并相应地更新模型。我发现dictionary.add_documents
, 和model.add_documents
,但有两件事我不清楚:
- 当您最初创建 LSI 模型时,函数接收的参数之一是
id2word=dictionary
. 更新模型时,如何告诉它使用更新后的字典?它实际上是不必要的,还是会有所作为? - 如何更新索引?从文档中可以看出,如果我使用
Similarity
类而不是MatrixSimilarity
类,我可以将文档添加到索引中,但我看不到MatrixSimilarity
. 如果我理解正确,那么MatrixSimilarity
如果我的输入语料库包含密集向量会更好(确实如此,因为我使用的是 LSI 模型)。我是否必须将其更改为Similarity
才能更新索引?或者,相反,创建这个索引的复杂性是什么?如果它无关紧要,我是否应该使用更新的语料库创建一个新索引,如下所示:
代码:
谢谢。:)
python - python - 如何使用nltk从python列表列中找到减少相似词?
我在熊猫中有一个专栏,如下所示
我想找到相似的词并减少到几个词来表示列,即减少相似的词并使用最常见的词。
输入:
输出:
提前致谢