问题标签 [doc2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Doc2Vec Gensim Document 和 Topic 的相似性
我是第一次尝试 Gensim,现在有一个问题。我已经用准备好的文档语料库训练了一个 LSI 模型。我的问题是,我如何知道一个新文档是否与我从文档语料库生成的模型相似。我不想像 MatrixSimilarity 那样知道文档与我的语料库中每个文档的相似性,而是想知道文档是否与我的主题/模型相似。
python - 当我尝试拥有文档的向量时如何解决 gensim KeyError?
我阅读了以下代码来学习 doc2vec 模型。每个文档都定义为两行之间的文本/行:
- 线索web09-en0001-XX-XXXXX
- end_clueweb09-en0001-XX-XXXXX
这是我的代码:
但是当我写model.docvecs['clueweb09-en0001-01-34238']时出现错误,但是当我写model.docvecs[0]时我得到了结果。
这是我得到的错误:
我没有 python 和 gensim 的经验,请告诉我如何解决这个问题。
machine-learning - 使用 doc2vec 表示的 scikit-learn 分类
我想使用 doc2vec 表示和 scikit-learn 模型对文本文档进行分类。
我的问题是我迷失了如何开始。有人可以解释将 doc2vec 与 scikit-learn 一起使用通常采取的一般步骤吗?
gensim - gensim LabeledSentence 和 TaggedDocument 有什么区别
TaggedDocument
请帮助我理解工作方式和LabeledSentence
工作方式之间的区别gensim
。我的最终目标是使用Doc2Vec
模型和任何分类器进行文本分类。我正在关注这个博客!
我的问题是model_l.docvecs['some_word']
一样的model_t.docvecs['some_word']
?您能否为我提供良好资源的网络链接,以了解如何TaggedDocument
或如何LabeledSentence
工作。
python - Gensim:如何加载预训练的 doc2vec 模型?
我正在尝试阅读我预训练的 doc2vec 模型:
但是,在读取过程中会出现错误。谁能建议如何处理这个问题?这是错误:
gensim - 如何使用 gensim doc2vec 训练新文本
我想使用大数据来训练 doc2vec 模型。我想用这个预训练模型来训练一个新文本。
我只希望用预训练模型训练新模型。我该怎么做?上面的代码不起作用......
python - 如何在python中调用语料库文件?
我目前正在研究 gensim doc2vec 模型来实现句子相似性。
我遇到了 William Bert 的这个示例代码,他提到要训练这个模型,我需要提供我自己的背景语料库。为方便起见,将代码复制如下:
我应该在哪里以及如何在代码中提供我自己的语料库?
在此先感谢您的帮助。
python - 分类器准确性 - 难以置信
问题陈述 - 对产品评论进行分类
课程 - 旅行,酒店,汽车,电子,食品,电影
我正在用著名的问题来解决这个Text Classification
问题。功能集是通过使用Doc2Vec
默认模型来准备的gensim
,对于分类我使用Logistic Regression
的是sklearn
.
对于每节课,我都会向Doc2Vec
.(我正在关注这个Doc2Vec教程)提供 10000 条评论。通过这种方式,模型为每个句子学习向量。从得到的向量中,每个类的 80%LogisticRegression
用于训练,20% 用于测试。分类器的准确率为 98%。但对于看不见的数据,准确率仅为 17%。当绘制在 2D 图中时,所有句子向量也PCA
产生一个密集簇。我可以从图中得出的结论是数据是不可分割的,但是分类器如何给出 98% 的准确度?另外,为什么在看不见的数据上,准确性非常低?我如何评估/验证我的结果。
gensim - 有没有办法从 doc2vec 模型中获取词汇量?
我正在使用 gensim doc2vec
。我想知道是否有任何有效的方法可以从 doc2vec 中了解词汇量。一种粗略的方法是计算总字数,但如果数据很大(1GB 或更多),那么这不是一种有效的方法。