问题标签 [lsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - HashingTF 没有给出唯一索引
我正在使用 eclipse Mars、java 8 和 spark-spark-assembly-1.6.1-hadoop2.4.0.jar 实现潜在语义分析 LSA,我将文档作为令牌传递,然后得到 SVD 等等
每件事都完美无缺,除了一个,那就是当我尝试从 hashingTF 中获取术语的索引时
我发现有许多具有相同索引的术语,这些是我得到的
0:术语
1:全部
1:下一个
2:tt
3:
7:文档
9:这样
9:矩阵
11:文档
11:大约
11:每个
12:函数
12:机会
14:这个
14:提供
意味着,当我尝试用它来获取术语的向量,我可能会得到另一个具有相同索引的向量,我在词形还原和删除停用词之后做了它,但仍然得到相同的错误,有什么我错过了,或需要更新的组件(例如 MLip)出错;我怎样才能为每个术语保持唯一性。
elasticsearch - ElasticSearch 中的语义搜索
在 ES 中添加语义的最佳方法是什么?我读过这篇文章:Semantic search with NLP and elasticsearch,但是这里有很多手动的东西,而且这已经很老了。例如:在无监督的任务中,不可能事先知道主题列表和文档所属的主题。此外,这个问题与文档的聚类不同。由于通过聚类,您可以说出所有文档的相似之处。但是有没有办法让我们查询这些类似的文件。
例如:“机器学习”查询应该让我得到“数据科学”或“数据挖掘”或“模式识别”文档,而不是“机器操作员”具有权重的文档。在这里聚类(可能是 LDA)可能会有所帮助,但它并不完全是聚类文档会为查询提供文档,它可能是它的扩展(我不知道)。还是我们只在聚类文档时减少搜索空间并使用基于 TF 的算法。集群上。
我尝试使用 LSA 来解决这个问题。LSA 会给我减少矩阵(通过 SVD),但我将如何在 ES 中使用这个结果?即使我们这样做,它将如何扩展?
有没有更好的方法?
r - 在 R 中使用 LSA 的文档相似性
我正在使用 LSA(使用 R)进行文档相似性分析。这是我的步骤
导入文本数据并创建语料库。是否进行了基础语料库操作,例如词干提取、空白删除等
创建 LSA 空间如下
tdm <- TermDocumentMatrix(chat_corpus) tdm_matrix <- as.matrix(tdm) tdm.lsa <- lw_bintf(tdm_matrix)*gw_idf(tdm_matrix) lsaSpace <- lsa(tdm.lsa)
LSA 上的多维建模 (MDS)
'
我想创建一个矩阵/数据框来显示文本的相似程度(如附件结果所示)。行和列将是要匹配的文本,而单元格值将是它们的相似度值。理想情况下,对角线值将是 1(完美匹配),而其余单元格值将小于 1。
请提供一些有关如何执行此操作的见解。提前致谢
注意:我得到了 python 代码,但在 R 中需要相同的代码
text - 文档相似度的不同方法(LDA、LSA、余弦)
我有一组简短的文件(每个 1 或 2 段)。我使用了三种不同的文档相似度方法: - tfidf 矩阵上的简单余弦相似度 - 将 LDA 应用于整个语料库,然后使用 LDA 模型为每个文档创建向量,然后我应用余弦相似度。- 在整个语料库上应用 LSA,然后使用 LSA 模型为每个文档创建向量,然后我应用余弦相似度。
基于实验,我在没有任何 LDA 或 LSA 的 tfidf 矩阵上的简单余弦相似度上得到了更好的结果。根据我阅读的内容,LDA 或 LSA 应该会改善结果,但就我而言并非如此!知道为什么 LDA 或 LSA 的结果更差吗?LDA 和 LSA 在训练超过 1000 轮后发现某些文档之间的相似性概率高于 90%,而这些文档完全不相关!
有什么理由吗?
谢谢
python - 如何打印出LDA生成的每个集群中的文档?
下面代码中的print_top_words方法仅打印每个主题的单词分布:
- 集群 1: word1 , word2 , ....
- 集群 2: word3 , word2 , ....
因此,我不想打印出单词分布,而是打印每个集群中的文档:
- 集群 1: documents1,documents2,....
- 集群 2: documents5,documents6,....
代码:
r - 使用 R 中的整个文档进行潜在文本分析(lsa 包)
我有一个代码,可以使用 R 中的 lsa 包成功对短引用执行潜在文本分析(见下文)。但是,我更愿意在较大文档中的文本上使用此方法。在每个引用空间中复制粘贴整个内容非常低效——它有效,但需要很长时间才能运行。有什么方法可以直接从数据库或数据框中导入每个“引文”(在这种情况下是文档)?如果是这样,它应该是什么格式?Txt 格式的文档在导入 R 时会自动分成段落,我不确定这是否与 lsa 包执行的分析兼容。
python - 为什么在进行文本聚类时在 K-Means 之前使用 LSA
我正在学习 Scikit 的本教程,学习使用 K-Means 进行文本聚类:http: //scikit-learn.org/stable/auto_examples/text/document_clustering.html
在示例中,可选地使用 LSA(使用 SVD)来执行降维。
为什么这很有用?维度(特征)的数量已经可以在 TF-IDF 矢量化器中使用“max_features”参数进行控制。
我知道 LSA(和 LDA)也是主题建模技术。与集群的不同之处在于文档属于多个主题,但只属于一个集群。我不明白为什么要在 K-Means 聚类的上下文中使用 LSA。
示例代码:
nlp - 潜在语义分析和词干
假设任何屈折语言都有一个非常大的语料库。以下内容有意义吗?通过在这样的语料库上应用 LSA,具有相似概念的词在向量空间中会聚在一起,因此指代相同概念的变形词形式在理想情况下应该与其在空间中的引理相同。有了这样的假设,就不需要对查询或语料库进行任何词形还原或词干化。还是我完全错了?
scikit-learn - 在大型稀疏矩阵上执行 SVD 特征分解
我使用形状为(323549、4119259)的稀疏矩阵格式从文本数据中保存了我的特征。我正在尝试使用 sklearn 库对它们执行奇异值分解,但是,我不断收到内存错误,这表明我的计算机功能不足以执行特征缩减。有没有更有效的方法来做到这一点?这是我使用的代码。
我正在使用具有 8GB RAM 的 i7-5500 处理器。