问题标签 [latent-semantic-analysis]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30 问题

0 投票

2 回答

2806 浏览

r - 主题建模：LDA、每个主题中的词频和 Wordcloud

问题：如何计算和编码每个主题中单词的频率？我的目标是从每个主题创建“词云”。

PS>我对wordcloud没有问题。

从代码中，

谢谢（我尽量使问题尽可能简洁，所以如果您需要更多详细信息，我可以添加更多。）

r text latent-semantic-indexing tidytext latent-semantic-analysis

2017-08-08T08:25:13.197

0 投票

1 回答

692 浏览

gensim - gensim的LSA模型使用了哪个tf-idf公式？

计算 tf 和 idf 的方法有很多种。我想知道 gensim 在其 LSA 模型中使用了哪个公式。我一直在浏览它的源代码lsimodel.py，但对我来说，创建文档术语矩阵的位置并不明显（可能是因为内存优化）。

在一篇 LSA 论文中，我读到文档术语矩阵的每个单元格都是该文档中该词的对数频率，除以该词的熵：

然而，这似乎是 tf-idf 的一个非常不寻常的表述。更熟悉的 tf-idf 形式是：

我还注意到关于gensim 本身如何TfIdfModel实现的问题。但是，我没有看到lsimodel.pyimporting TfIdfModel，因此只能假设它lsimodel.py有自己的 tf-idf 实现。

gensim tf-idf latent-semantic-indexing latent-semantic-analysis

2017-12-01T17:36:25.923

0 投票

1 回答

79 浏览

machine-learning - 是否可以为 scikit-learn LDA 设置初始主题分配？

我不想将 topic_word_prior 设置为参数，而是想根据单词的预定义分布来初始化主题。我将如何在 sklearn 的实现中设置这个初始主题分布？如果不可能，是否有更好的实现需要考虑？

machine-learning scikit-learn lda latent-semantic-analysis

2019-04-18T20:39:22.637

0 投票

0 回答

27 浏览

python - 无监督命令分类

如何在不使用 Bag-Of-Words 表示的情况下对/bin/busybox chmod 777 /dvrHelper等命令进行集群？LDA或Word2vec之类的模型可能对我的目标有用吗？

python machine-learning text-mining word2vec latent-semantic-analysis

2020-03-22T14:25:37.627

0 投票

0 回答

92 浏览

nlp - nltk 潜在语义分析一遍又一遍地复制第一个主题

这是我第一次尝试自然语言处理，所以我从潜在语义分析开始，并使用本教程来构建算法。在对其进行测试后，我发现它只对第一个语义词进行分类，并在其他文档之上一遍又一遍地重复相同的词。

我也尝试将在HERE中找到的文件提供给它，它的作用完全相同。在其他主题中多次重复同一主题的值。

谁能帮忙解释发生了什么？我一直在搜索，一切似乎都与教程中的完全一样。

nlp semantics latent-semantic-indexing latent-semantic-analysis

2020-04-14T21:19:28.640

0 投票

1 回答

367 浏览

word-embedding - 从 BERT 模型中提取单词特征

如您所知，我们可以提取句子中单词的 BERT 特征。我的问题是，我们也可以提取句子中不包含的单词特征吗？比如“dog”、“human”等单个词的bert特征。

word-embedding bert-language-model latent-semantic-analysis

2020-10-15T05:55:08.167

0 投票

1 回答

391 浏览

python-3.x - Sklearn 潜在狄利克雷分配如何真正起作用？

我有一些文本，我正在使用 sklearn LatentDirichletAllocation算法从文本中提取主题。

我已经使用 Keras 将文本转换为序列，我正在这样做：

X：

X_topics：

我的问题是，究竟返回了什么fit_transform，我知道这应该是从文本中检测到的主要主题，但我无法将这些数字映射到索引，所以我无法看到这些序列的含义，我搜索失败对于实际发生的事情的解释，所以任何建议将不胜感激。

python-3.x scikit-learn nlp latent-semantic-analysis

2020-12-02T18:23:34.230

0 投票

0 回答

216 浏览

attributes - AttributeError：“int”对象没有属性“toarray”

我试图解决这个问题，但错误一直存在。对于英文文本来说这不是问题，但对于阿拉伯语来说却是这样。知道如何解决这个问题吗？

AttributeError：int对象没有属性toarray

attributes attributeerror topic-modeling toarray latent-semantic-analysis

2020-12-13T15:01:26.660

0 投票

1 回答

204 浏览

nlp - 在 python 中使用 gensim 预处理数据时如何保留数字？

我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词字典。但是，这也过滤了我真正需要的重要数字（房屋分辨率、账单号等）。我是如何克服这个问题的？可能是用他们的单词形式替换数字。不过，我该怎么做呢？

nlp gensim preprocessor lda latent-semantic-analysis

2021-05-09T13:21:30.057

0 投票

0 回答

35 浏览

python - 如何解释 LSA 模型的输出？

我如何解释 LSA 模型的分数结果？我正在尝试映射模型生成的 20 个主题，以便为原始数据中的每个文档分配最佳主题。当我为我的词袋中的每个项目运行模型时，我得到（主题号，分数），如下面的结果所示：

主题 1 得分最高，这是否意味着它是词袋输入的最佳主题？这里的分数是什么意思？

python topic-modeling latent-semantic-analysis

2021-06-11T14:04:03.900

1 2 3 4 5 6 7 8 9 10