问题标签 [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python语料库:加载字典时报告错误:'NoneType'对象没有属性'doc2bow'
我不得不承认我不是程序员,但我负责部署。现在我遇到了一个大问题。在我们的生产环境中,语料词典的加载总是失败,错误是
但是,相同的代码在我们的测试环境和开发人员的本地环境中都可以正常工作。我让测试服务器连接到生产数据库并且加载工作,这意味着数据库没问题。
我检查了每个目录中的每个设置文件。所需的文件都在那里,所有“路径”都可以。我重新安装了从测试环境中冻结的所有依赖项。但我无法找到根本原因。
谁能给我一些建议,我应该如何进行故障排除。
python - gensim 中原始 LDA 的术语权重
我正在使用 gensim 库将 LDA 应用于一组文档。使用 gensim,我可以将 LDA 应用于语料库,无论权重是什么:二进制、tf、tf-idf ...
我的问题是,原始LDA应该使用什么术语加权?如果我理解正确,权重应该是词频,但我不确定。
windows-7 - Python pip not working for scipy, scikit-learn and gensim
I'm trying to install scipy
, scikit-learn
, and gensim
on Windows 7 with Python 3.3.
If I try any of these:
pip install sci
I end up with an ImportError similar to:
And yes, I have installed numpy
- it works fine if I try to import it in Python. I've managed to install scipy
and scikit-learn
by downloading executable installers, but gensim
doesn't have one...
I've also tried using easy_install
for all three, but that doesn't work either.
Is it something to do with the Python installation? Any ideas? Thanks a lot in advance!
nlp - 为什么以这种方式计算 gensim.word2vec 中两个词袋之间的相似度?
这是我从 gensim.word2Vec 中摘录的代码,我知道两个单词的相似度可以通过余弦距离来计算,但是两个单词集呢?该代码似乎使用每个 wordvec 的平均值,然后计算两个平均向量的余弦距离。我对word2vec知之甚少,这样的过程是否有一些基础?
lda - 双(多)语语料库上的 Lda
我正在尝试重现 Graber 等人的结果。表明当 LDA 与多语言语料库一起使用时,一个主题(例如,前 10 个)最可能的术语将来自单一语言。他们的论文在这里。
这是执行 IMO 的合理健全性检查,但我遇到了困难。
我正在使用他们使用的相同语料库Europarl 语料库,语料库由保加利亚语和英语组成。我将保加利亚语和英语语料库与
这包含每行一个句子,保加利亚语的行集合和英语的第二个集合。当我拟合一个包含 4 个主题的 LDA 模型时,前 10 名中有 3 个仅包含英语术语,而第 4 个是英语和保加利亚语之间的混合词。我正在使用 LDA 的默认设置:
请注意,我没有删除停用词或稀疏术语,但我认为这无关紧要。直觉上应该有一些主题只有保加利亚语,而另一些主题只有英语,不是吗?
python - Gensim 中的 BleiCorpus 和美联社数据集:IO 错误
我正在尝试使用 Python 遵循“构建机器学习系统”一书中关于主题建模/潜在狄利克雷分配 (LDA) 的教程。
我在这本书中没有走得太远,主题建模的第一部分为我返回了错误:
错误:
vocab.txt 文件不存在,但是切换到它应该在的目录,我发现以下内容:
$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh
看起来ap数据需要单独下载(书中没有提到),所以这样做:
我明白了:
有谁知道如何解决这个问题?
谢谢
python - Spark 和 Python 尝试使用 gensim 解析维基百科
根据我之前的问题Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入,我认为我应该能够基本上解析 sc.textFile() 的任何输入,然后使用我的或来自某些库自定义函数。
现在我特别尝试使用 gensim 框架解析维基百科转储。我已经在我的主节点和所有工作节点上安装了 gensim,现在我想使用 gensim 内置函数来解析受 MAP (PySpark) 返回的元组列表(或迭代器)这个问题启发的维基百科页面。
我的代码如下:
extract_pages 的源代码可以在https://github.com/piskvorky/gensim/blob/develop/gensim/corpora/wikicorpus.py找到,根据我的经历,它似乎应该与 Spark 一起使用。
但不幸的是,当我运行代码时,我收到以下错误日志:
然后是一些可能的 Spark 日志:
和
我已经在没有 Spark 的情况下成功尝试过这个,所以问题应该是 Spark 和 gensim 的组合,但我不太了解我得到的错误。我在 gensim wikicorpus.py 的第 190 行没有看到任何文件读取。
编辑:
从 Spark 添加了更多日志:
编辑2:
gensim 使用 from xml.etree.cElementTree import iterparse
, documentation here,这可能会导致问题。它实际上需要包含 xml 数据的文件名或文件。可以将 RDD 视为包含 xml 数据的文件吗?
python - 在 Windows 7 中安装 gensim
我正在尝试安装 gensim python 库。但是我面临一些依赖错误。我已经通过树冠安装了 schipy 和 numpy。下一步使用 pip install gensim 来获取 gensim 包。但是我收到错误消息。我已经安装了 python 2.7.4。我的机器上安装了 Visual Studio 2010。
python - Python:: IOError: [Errno 2] 没有这样的文件或目录:'models/dictionary.dict'
我正在使用 gensim 包在 python 中进行主题建模。
我正在尝试使用 gensim 训练主题模型。下面是 train.py 模块:
运行此模块时出现以下错误:
谁能帮我解决这个问题?
python - 在 gensim 中运行 LDA 时出现索引错误
我阅读了我拥有的文档
下一个,
然后我建立一个语料库:
buildDictionary 和 buildCorpus 的定义:
然后我做停用词的东西:
然后我打电话:
这是错误:
下面的日志信息显示它已启动但随后崩溃。
然后我们收到我在上面发布的错误消息。