问题标签 [latent-semantic-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 主题建模:LDA、每个主题中的词频和 Wordcloud
问题:如何计算和编码每个主题中单词的频率?我的目标是从每个主题创建“词云”。
PS>我对wordcloud没有问题。
从代码中,
谢谢(我尽量使问题尽可能简洁,所以如果您需要更多详细信息,我可以添加更多。)
gensim - gensim的LSA模型使用了哪个tf-idf公式?
计算 tf 和 idf 的方法有很多种。我想知道 gensim 在其 LSA 模型中使用了哪个公式。我一直在浏览它的源代码lsimodel.py
,但对我来说,创建文档术语矩阵的位置并不明显(可能是因为内存优化)。
在一篇 LSA 论文中,我读到文档术语矩阵的每个单元格都是该文档中该词的对数频率,除以该词的熵:
然而,这似乎是 tf-idf 的一个非常不寻常的表述。更熟悉的 tf-idf 形式是:
我还注意到关于gensim 本身如何TfIdfModel
实现的问题。但是,我没有看到lsimodel.py
importing TfIdfModel
,因此只能假设它lsimodel.py
有自己的 tf-idf 实现。
python - Sklearn TruncatedSVD 不返回 n,组件
我在 TfIdf 矩阵上拟合 LSA 模型。我的原始矩阵有
(20, 22096) 然后我应用 TruncatedSVD 来执行 LSI/Reduction
svd = TruncatedSVD(n_components=200, random_state=42, n_iter=10)
svdProfile = svd.fit_transform(profileLSAVectors)
print(np.shape(svdProfile)) #result (20, 20)
而不是得到 (20,200) 我得到 (20, 20)
任何人都知道为什么......?
java - 在Java中计算两个单词的概念和关系相似度
我正在根据这篇论文在 Java 中实现一个可读性公式。
我已经到了必须计算两个或多个单词的概念和关系相似性的地步。
他们说:
我们使用潜在语义分析 (LSA) 工具来计算单词相似度。LSA 可以从单词文档共现矩阵中获取语义信息,包括相似性。在扫描整个语料库的固定大小的移动窗口中计算单词/术语共现。使用 +-1 和 +-4 窗口大小的共现模型分别被认为是关系相似性和概念语义模型。
我试图查看 LSA 的一些实现,比如这个,但是找不到一种直接的方法来获得我想要的东西。
我应该有一个基于单词的矩阵,所以我尝试使用 WS4J 库来计算基于两个字符串数组的矩阵。
WS4J 也有一个方法calcRelatednessOfWords()
,但它得到的结果与论文中显示的不匹配。
有没有提供我想要的图书馆?或者谁能指出我正确的方向?
python - LSI 主题连贯性的“好”值是多少?
我正在使用 gensim python 库来处理小型语料库(每次大约 1500 篇新闻文章)。假设我有兴趣创建与同一新闻相关的文章集群。
因此,对于我已经标记化、检测搭配、提取词干然后输入一个小字典(大约 20k 个标记)的每个文章语料库,我已经通过了一个 TFIDF 模型。
最后,我使用 TFIDF 语料库构建了语料库的 LSI 模型,并在 gensim 的文档相似度函数的帮助下获得了非常好的结果。
但我很好奇,并通过以下方式对 LSI 进行了一些一致性检查:
而且我总是得到大约 0.45 的值,这看起来很弱。
所以我想知道如何解释这种连贯性值?当您只需要索引中的文档与索引本身的相似性时,这个值是否有意义(因此查询是语料库中的完整文档)?
编辑:我尝试了不同的文本预处理方法,例如在输入 Phrases 类之前将每个文档拆分为真实句子,生成二元组、三元组或是否删除重音,在某些情况下,我能够获得大约 0.55 的连贯性值,所以至少我猜想它可以帮助找到处理原始数据的最有效方法......
scikit-learn - LSI 模型无法加载模型
我存储了一个 LSI 模型,该模型存储为 model.pkl 和 model.pkl.projection。
但是,当我尝试加载模型时,加载失败,因为它试图用 .npy 查找投影文件
知道为什么会发生这种情况吗?
python - 无法运行 gensims 分布式 LSI
问题描述
由于这个原因,无法运行 gensims 分布式 LSIfailed to initialize distributed LSI (Failed to locate the nameserver)
重现的步骤/代码/语料库
日志跟踪:
版本
python - 如何获得归因于 gensim LSI 文档的主题分数?
我是 python 和 ML 的新手。我找到了一个很好的脚本(https://www.machinelearningplus.com/nlp/topic-modeling-visualization-how-to-present-results-lda-models/)关于如何为 LDA 和我的每个文档获取属性主题将其更改为也可以与 LSI 一起使用。原始代码是:
为了将它用于 LSI,我将其更改为:
- 这是正确的方法吗?
- 由于 LSI 不是基于概率,因此“Perc_Contrib”高于 100%。我应该如何解释这个数字?
- 除了上面的脚本,由于 LSI 没有 get_document_topics,我可以使用哪个函数来查看得分最高的主题?
python - 为什么我的主题权重的符号会随着运行而变化?
我正在运行 Gensim 的主题和转换教程中的 LSI 程序,出于某种原因,主题权重的符号不断从正变为负,反之亦然。例如,这是我使用该行打印时得到的
我在 PC 上运行 Python 3.5.2,使用 IntelliJ 进行编码。
任何人都遇到过这个问题,使用 Gensim 库或其他地方?