问题标签 [doc2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
846 浏览

python - Doc2Vec Gensim Document 和 Topic 的相似性

我是第一次尝试 Gensim,现在有一个问题。我已经用准备好的文档语料库训练了一个 LSI 模型。我的问题是,我如何知道一个新文档是否与我从文档语料库生成的模型相似。我不想像 MatrixSimilarity 那样知道文档与我的语料库中每个文档的相似性,而是想知道文档是否与我的主题/模型相似。

0 投票
1 回答
551 浏览

python - 当我尝试拥有文档的向量时如何解决 gensim KeyError?

我阅读了以下代码来学习 doc2vec 模型。每个文档都定义为两行之间的文本/行:

  • 线索web09-en0001-XX-XXXXX
  • end_clueweb09-en0001-XX-XXXXX

这是我的代码:

但是当我写model.docvecs['clueweb09-en0001-01-34238']时出现错误,但是当我写model.docvecs[0]时我得到了结果。

这是我得到的错误:

我没有 python 和 gensim 的经验,请告诉我如何解决这个问题。

0 投票
1 回答
3536 浏览

machine-learning - 使用 doc2vec 表示的 scikit-learn 分类

我想使用 doc2vec 表示和 scikit-learn 模型对文本文档进行分类。

我的问题是我迷失了如何开始。有人可以解释将 doc2vec 与 scikit-learn 一起使用通常采取的一般步骤吗?

0 投票
1 回答
4053 浏览

gensim - gensim LabeledSentence 和 TaggedDocument 有什么区别

TaggedDocument请帮助我理解工作方式和LabeledSentence工作方式之间的区别gensim。我的最终目标是使用Doc2Vec模型和任何分类器进行文本分类。我正在关注这个博客

我的问题是model_l.docvecs['some_word']一样的model_t.docvecs['some_word']?您能否为我提供良好资源的网络链接,以了解如何TaggedDocument或如何LabeledSentence工作。

0 投票
1 回答
2570 浏览

python - Gensim Doc2Vec Exception AttributeError: 'str' object has no attribute 'words'

我正在Doc2Vec从图书馆学习模型gensim并按如下方式使用它:

输入dirname是一个目录路径,为了简单起见,它只有 2 个文件,每个文件包含 100 多行。我正在关注异常。

输出

此外,通过print声明,我可以看到迭代器在目录上迭代了 6 次。为什么会这样?

任何形式的帮助将不胜感激。

0 投票
1 回答
1578 浏览

python - Gensim:如何加载预训练的 doc2vec 模型?

我正在尝试阅读我预训练的 doc2vec 模型:

但是,在读取过程中会出现错误。谁能建议如何处理这个问题?这是错误:

0 投票
0 回答
1743 浏览

gensim - 如何使用 gensim doc2vec 训练新文本

我想使用大数据来训练 doc2vec 模型。我想用这个预训练模型来训练一个新文本。

我只希望用预训练模型训练新模型。我该怎么做?上面的代码不起作用......

0 投票
0 回答
824 浏览

python - 如何在python中调用语料库文件?

我目前正在研究 gensim doc2vec 模型来实现句子相似性。

我遇到了 William Bert 的这个示例代码,他提到要训练这个模型,我需要提供我自己的背景语料库。为方便起见,将代码复制如下:

我应该在哪里以及如何在代码中提供我自己的语料库?

在此先感谢您的帮助。

0 投票
0 回答
411 浏览

python - 分类器准确性 - 难以置信

问题陈述 - 对产品评论进行分类

课程 - 旅行,酒店,汽车,电子,食品,电影

我正在用著名的问题来解决这个Text Classification问题。功能集是通过使用Doc2Vec默认模型来准备的gensim,对于分类我使用Logistic Regression的是sklearn.

对于每节课,我都会向Doc2Vec.(我正在关注这个Doc2Vec教程)提供 10000 条评论。通过这种方式,模型为每个句子学习向量。从得到的向量中,每个类的 80%LogisticRegression用于训练,20% 用于测试。分类器的准确率为 98%。但对于看不见的数据,准确率仅为 17%。当绘制在 2D 图中时,所有句子向量也PCA产生一个密集簇。我可以从图中得出的结论是数据是不可分割的,但是分类器如何给出 98% 的准确度?另外,为什么在看不见的数据上,准确性非常低?我如何评估/验证我的结果。

0 投票
3 回答
6012 浏览

gensim - 有没有办法从 doc2vec 模型中获取词汇量?

我正在使用 gensim doc2vec。我想知道是否有任何有效的方法可以从 doc2vec 中了解词汇量。一种粗略的方法是计算总字数,但如果数据很大(1GB 或更多),那么这不是一种有效的方法。