“gensim”的相关标签问题_Stack Overflow中文网

0 投票

5 回答

4273 浏览

python - 实施 gensim.LdaMallet 时出错

我按照此链接（“ http://radimrehurek.com/2014/03/tutorial-on-mallet-in-python/ ”）上的说明进行操作，但是在尝试训练模型时遇到了错误：

请分享您可能有的任何想法。

谢谢。

2014-06-09T18:08:45.923

0 投票

3 回答

4954 浏览

python - 如何将令牌添加到 gensim 字典

我使用gensim从文档集合中构建字典。每个文档都是一个令牌列表。这是我的代码

我的问题是如何将新文档（令牌）添加到这本字典并更新它。我在gensim文档中搜索但没有找到解决方案

python gensim topic-modeling topicmodels

2014-06-12T07:33:21.043

0 投票

1 回答

83 浏览

python - Python-使用列表推导关闭同时打开的一堆文本文件

我正在使用 gensim 开发 LDA 模型。为此，我基本上是打开文本文件，构建字典，然后运行模型。

要打开我使用的文件：

其中 sample_list 是文件路径列表。我需要使用 codecs.open 因为文本使用不同的语言（而且我还没有更新 Python）。

我的问题是我不知道如何在使用它们后关闭所有文件。有任何想法吗？我已经尝试了几件事。我不能在这里使用常规循环，因为我的以下步骤是：

当我使用超过 5,000 个文件时，我收到错误 '' IOError: [Errno 24] Too many open files '' 我想我可以一次打开多个文件，加入它们，关闭它们，然后重复。此外，保持文件打开也很糟糕。谢谢！

python loops text gensim

2014-06-13T19:09:45.303

0 投票

1 回答

578 浏览

python - 从 gensim 获取主题层次结构

gensim 是否给了我们主题的层次结构？我写了一个代码来计算一些文档的主题，输出是每个主题的单词。但我想要主题的层次结构。这是我的代码：

https://gist.github.com/anonymous/2e3b2f3866e5029c55c3

这是输出：

有没有办法获得主题的层次结构？

python scipy gensim

2014-06-16T11:06:53.010

0 投票

2 回答

3317 浏览

python - LDA gensim 实现，两个不同文档之间的距离

编辑：我在这里发现了一个有趣的问题。此链接显示 gensim 在训练和推理步骤中都使用随机性。所以这里建议的是设置一个固定的种子，以便每次都能得到相同的结果。但是，为什么我对每个主题都得到相同的概率？

我想做的是为每个推特用户找到她的主题，并根据主题的相似性计算推特用户之间的相似度。是否有可能为 gensim 中的每个用户计算相同的主题，还是我必须计算一个主题字典并聚类每个用户主题？

一般来说，基于 gensim 中的主题模型提取比较两个 twitter 用户的最佳方法是什么？我的代码如下：

返回用户语料库的主题概率（当使用用户词列表作为语料库时）：

在我使用用户推文列表的情况下，我会返回每条推文的计算主题。

问题 2：以下是否有意义：使用之前计算的 LDA 模型，用几个 twitter 用户训练 LDA 模型并为每个用户（每个用户语料库）计算主题？

在提供的示例中，list[0]返回具有相等概率 0.1 的主题分布。基本上，每一行文本对应一条不同的推文。如果我用它计算语料库，corpus = [dictionary.doc2bow(text) for text in texts]它将分别给我每条推文的概率。另一方面，如果我corpus = [dictionary.doc2bow(words)]像示例一样使用，我将只使用所有用户词作为语料库。在第二种情况下， gensim 返回所有主题的相同概率。因此，对于两个用户，我都得到了相同的主题分布。

用户文本语料库应该是单词列表还是句子列表（推文列表）？

关于twitterRank 方法中 Qi He 和 Jianshu Weng 的实现在第 264 页中说：我们将个人 twitterer 发布的推文聚合成一个大文档。因此，每个文档对应一个twitterer。好的，我很困惑，如果文档将是所有用户推文，那么语料库应该包含什么？

python probability gensim

2014-06-26T12:13:15.623

0 投票

4 回答

7274 浏览

python - 如何用gensim过滤掉语料库中tf-idf低的单词？

我正在使用gensim一些 NLP 任务。我创建了一个语料库，dictionary.doc2bow其中. 现在我想在运行 LDA 模型之前过滤掉具有低 tf-idf 值的项。我查看了语料库类的文档，但找不到访问这些术语的方法。有任何想法吗？谢谢你。dictionarycorpora.Dictionary

python nlp gensim

2014-07-10T23:53:45.820

0 投票

2 回答

1979 浏览

topic-modeling - 潜在语义索引主题的数量

我正在使用 gensim 的包在语料库上实现 LSI。我的目标是找出语料库中出现频率最高的不同主题。

如果我不知道语料库中的主题数量（我估计在 5 到 20 之间），那么设置 LSI 应该搜索的主题数量的最佳方法是什么？寻找大量主题（20-30）还是少量主题（〜5）更好？

topic-modeling gensim latent-semantic-indexing

2014-07-18T03:47:19.253

0 投票

1 回答

555 浏览

python - 使用 django manage.py runserver 加载文件

我正在使用 Django 作为搜索引擎。请求由 POST 发出，服务器处理它们并以 JSON 格式回答。为了更快，我需要在开始时加载一个索引文件（使用 manage.py runserver）以及在调用视图时访问它的方法。

有谁知道该怎么做？

提前致谢！

python django gensim

2014-07-21T09:03:08.960

0 投票

0 回答

123 浏览

python - 移动数据库时python中的Gensim分片

如果我尝试通过 Windows 资源管理器移动我的 gensim 数据库并从新位置访问它，我会收到一个错误，因为它说存在分片错误？

我也知道底层 SQLite 在 gensim 中我可以将它移植到 django 模型中的 SQLite 吗？

python django gensim

2014-08-12T19:26:56.023

0 投票

1 回答

5361 浏览

lda - 从 lda gensim 检索主题词数组和文档主题数组

情况：

我有一个 numpy 术语文档矩阵示例：[[0,1,0,0....],....[......0,0,0,0]]。

我已将上述矩阵插入到 gensim 的 ldamodel 方法中。使用 lad 方法效果很好lda = LdaModel(corpus, num_topics=10)。 corpus是我上面提到的术语文档矩阵。我需要两个中间矩阵（主题词数组和文档主题数组）用于研究目的。

1) 每个文档-主题概率矩阵 (p_d_t)

2）每个主题词概率矩阵（p_w_t）

问题：

如何从 gensimLdaModel()函数中获取这些数组。？请帮助我获得这些矩阵。

lda gensim

2014-09-12T07:46:07.310

问题标签 [gensim]

Reference