问题标签 [latent-semantic-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2806 浏览

r - 主题建模:LDA、每个主题中的词频和 Wordcloud

问题:如何计算和编码每个主题中单词的频率?我的目标是从每个主题创建“词云”。

PS>我对wordcloud没有问题。

从代码中,

谢谢(我尽量使问题尽可能简洁,所以如果您需要更多详细信息,我可以添加更多。)

0 投票
1 回答
692 浏览

gensim - gensim的LSA模型使用了哪个tf-idf公式?

计算 tf 和 idf 的方法有很多种。我想知道 gensim 在其 LSA 模型中使用了哪个公式。我一直在浏览它的源代码lsimodel.py,但对我来说,创建文档术语矩阵的位置并不明显(可能是因为内存优化)。

一篇 LSA 论文中,我读到文档术语矩阵的每个单元格都是该文档中该词的对数频率,除以该词的熵:

然而,这似乎是 tf-idf 的一个非常不寻常的表述。更熟悉的 tf-idf 形式是:

我还注意到关于gensim 本身如何TfIdfModel实现的问题。但是,我没有看到lsimodel.pyimporting TfIdfModel,因此只能假设它lsimodel.py有自己的 tf-idf 实现。

0 投票
1 回答
79 浏览

machine-learning - 是否可以为 scikit-learn LDA 设置初始主题分配?

我不想将 topic_word_prior 设置为参数,而是想根据单词的预定义分布来初始化主题。我将如何在 sklearn 的实现中设置这个初始主题分布?如果不可能,是否有更好的实现需要考虑?

0 投票
0 回答
27 浏览

python - 无监督命令分类

如何在 不使用 Bag-Of-Words 表示的情况下对/bin/busybox chmod 777 /dvrHelper等命令进行集群?LDAWord2vec之类的模型可能对我的目标有用吗?

0 投票
0 回答
92 浏览

nlp - nltk 潜在语义分析一遍又一遍地复制第一个主题

这是我第一次尝试自然语言处理,所以我从潜在语义分析开始,并使用本教程来构建算法。在对其进行测试后,我发现它只对第一个语义词进行分类,并在其他文档之上一遍又一遍地重复相同的词。

我也尝试将在HERE中找到的文件提供给它,它的作用完全相同。在其他主题中多次重复同一主题的值。

谁能帮忙解释发生了什么?我一直在搜索,一切似乎都与教程中的完全一样。

0 投票
1 回答
367 浏览

word-embedding - 从 BERT 模型中提取单词特征

如您所知,我们可以提取句子中单词的 BERT 特征。我的问题是,我们也可以提取句子中不包含的单词特征吗?比如“dog”、“human”等单个词的bert特征。

0 投票
1 回答
391 浏览

python-3.x - Sklearn 潜在狄利克雷分配如何真正起作用?

我有一些文本,我正在使用 sklearn LatentDirichletAllocation算法从文本中提取主题。

我已经使用 Keras 将文本转换为序列,我正在这样做:

X

X_topics

我的问题是,究竟返回了什么fit_transform,我知道这应该是从文本中检测到的主要主题,但我无法将这些数字映射到索引,所以我无法看到这些序列的含义,我搜索失败对于实际发生的事情的解释,所以任何建议将不胜感激。

0 投票
0 回答
216 浏览

attributes - AttributeError:“int”对象没有属性“toarray”

我试图解决这个问题,但错误一直存在。对于英文文本来说这不是问题,但对于阿拉伯语来说却是这样。知道如何解决这个问题吗?


AttributeError:int对象没有属性toarray

0 投票
1 回答
204 浏览

nlp - 在 python 中使用 gensim 预处理数据时如何保留数字?

我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词字典。但是,这也过滤了我真正需要的重要数字(房屋分辨率、账单号等)。我是如何克服这个问题的?可能是用他们的单词形式替换数字。不过,我该怎么做呢?

0 投票
0 回答
35 浏览

python - 如何解释 LSA 模型的输出?

我如何解释 LSA 模型的分数结果?我正在尝试映射模型生成的 20 个主题,以便为原始数据中的每个文档分配最佳主题。当我为我的词袋中的每个项目运行模型时,我得到(主题号,分数),如下面的结果所示:

主题 1 得分最高,这是否意味着它是词袋输入的最佳主题?这里的分数是什么意思?