问题标签 [gensim]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
4273 浏览

python - 实施 gensim.LdaMallet 时出错

我按照此链接(“ http://radimrehurek.com/2014/03/tutorial-on-mallet-in-python/ ”)上的说明进行操作,但是在尝试训练模型时遇到了错误:

请分享您可能有的任何想法。

谢谢。

0 投票
3 回答
4954 浏览

python - 如何将令牌添加到 gensim 字典

我使用从文档集合中构建字典。每个文档都是一个令牌列表。这是我的代码

我的问题是如何将新文档(令牌)添加到这本字典并更新它。我在gensim文档中搜索但没有找到解决方案

0 投票
1 回答
83 浏览

python - Python-使用列表推导关闭同时打开的一堆文本文件

我正在使用 gensim 开发 LDA 模型。为此,我基本上是打开文本文件,构建字典,然后运行模型。

要打开我使用的文件:

其中 sample_list 是文件路径列表。我需要使用 codecs.open 因为文本使用不同的语言(而且我还没有更新 Python)。

我的问题是我不知道如何在使用它们后关闭所有文件。有任何想法吗?我已经尝试了几件事。我不能在这里使用常规循环,因为我的以下步骤是:

当我使用超过 5,000 个文件时,我收到错误 '' IOError: [Errno 24] Too many open files '' 我想我可以一次打开多个文件,加入它们,关闭它们,然后重复。此外,保持文件打开也很糟糕。谢谢!

0 投票
1 回答
578 浏览

python - 从 gensim 获取主题层次结构

gensim 是否给了我们主题的层次结构?我写了一个代码来计算一些文档的主题,输出是每个主题的单词。但我想要主题的层次结构。这是我的代码:

https://gist.github.com/anonymous/2e3b2f3866e5029c55c3

这是输出:

有没有办法获得主题的层次结构?

0 投票
2 回答
3317 浏览

python - LDA gensim 实现,两个不同文档之间的距离

编辑:我在这里发现了一个有趣的问题。此链接显示 gensim 在训练和推理步骤中都使用随机性。所以这里建议的是设置一个固定的种子,以便每次都能得到相同的结果。但是,为什么我对每个主题都得到相同的概率?

我想做的是为每个推特用户找到她的主题,并根据主题的相似性计算推特用户之间的相似度。是否有可能为 gensim 中的每个用户计算相同的主题,还是我必须计算一个主题字典并聚类每个用户主题?

一般来说,基于 gensim 中的主题模型提取比较两个 twitter 用户的最佳方法是什么?我的代码如下:

返回用户语料库的主题概率(当使用用户词列表作为语料库时):

在我使用用户推文列表的情况下,我会返回每条推文的计算主题。

问题 2:以下是否有意义:使用之前计算的 LDA 模型,用几个 twitter 用户训练 LDA 模型并为每个用户(每个用户语料库)计算主题?

在提供的示例中,list[0]返回具有相等概率 0.1 的主题分布。基本上,每一行文本对应一条不同的推文。如果我用它计算语料库,corpus = [dictionary.doc2bow(text) for text in texts]它将分别给我每条推文的概率。另一方面,如果我corpus = [dictionary.doc2bow(words)]像示例一样使用,我将只使用所有用户词作为语料库。在第二种情况下, gensim 返回所有主题的相同概率。因此,对于两个用户,我都得到了相同的主题分布。

用户文本语料库应该是单词列表还是句子列表(推文列表)?

关于twitterRank 方法中 Qi He 和 Jianshu Weng 的实现在第 264 页中说:我们将个人 twitterer 发布的推文聚合成一个大文档。因此,每个文档对应一个twitterer。好的,我很困惑,如果文档将是所有用户推文,那么语料库应该包含什么?

0 投票
4 回答
7274 浏览

python - 如何用gensim过滤掉语料库中tf-idf低的单词?

我正在使用gensim一些 NLP 任务。我创建了一个语料库,dictionary.doc2bow其中. 现在我想在运行 LDA 模型之前过滤掉具有低 tf-idf 值的项。我查看了语料库类的文档,但找不到访问这些术语的方法。有任何想法吗?谢谢你。dictionarycorpora.Dictionary

0 投票
2 回答
1979 浏览

topic-modeling - 潜在语义索引主题的数量

我正在使用 gensim 的包在语料库上实现 LSI。我的目标是找出语料库中出现频率最高的不同主题。

如果我不知道语料库中的主题数量(我估计在 5 到 20 之间),那么设置 LSI 应该搜索的主题数量的最佳方法是什么?寻找大量主题(20-30)还是少量主题(〜5)更好?

0 投票
1 回答
555 浏览

python - 使用 django manage.py runserver 加载文件

我正在使用 Django 作为搜索引擎。请求由 POST 发出,服务器处理它们并以 JSON 格式回答。为了更快,我需要在开始时加载一个索引文件(使用 manage.py runserver)以及在调用视图时访问它的方法。

有谁知道该怎么做?

提前致谢 !

0 投票
0 回答
123 浏览

python - 移动数据库时python中的Gensim分片

如果我尝试通过 Windows 资源管理器移动我的 gensim 数据库并从新位置访问它,我会收到一个错误,因为它说存在分片错误?

我也知道底层 SQLite 在 gensim 中我可以将它移植到 django 模型中的 SQLite 吗?

0 投票
1 回答
5361 浏览

lda - 从 lda gensim 检索主题词数组和文档主题数组

情况:

我有一个 numpy 术语文档矩阵示例:[[0,1,0,0....],....[......0,0,0,0]]。

我已将上述矩阵插入到 gensim 的 ldamodel 方法中。使用 lad 方法效果很好lda = LdaModel(corpus, num_topics=10)corpus是我上面提到的术语文档矩阵。我需要两个中间矩阵(主题词数组和文档主题数组)用于研究目的。

1) 每个文档-主题概率矩阵 (p_d_t)

2)每个主题词概率矩阵(p_w_t)

问题:

如何从 gensimLdaModel()函数中获取这些数组。?请帮助我获得这些矩阵。