问题标签 [doc2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1610 浏览

nlp - gensim中TaggedDocument和TaggedLineDocument的区别?以及如何处理目录中的文件?

我是 doc2vec 的新手,我希望使用它对一组文本进行分类。

我对 TaggedDocument 和 TaggedLineDocument 感到困惑。

1)两者有什么区别?TaggedLineDocument 是 TaggedDocuments 的集合吗?

2)如果我有一个包含所有文件的目录,如何为它们生成特征向量?我应该创建一个新文件,其中每一行都包含目录中文件的文本吗?

0 投票
3 回答
22766 浏览

python - 如何在 gensim 中使用 TaggedDocument?

我有两个目录,我想从中读取它们的文本文件并标记它们,但我不知道如何通过TaggedDocument. 我认为它可以作为 TaggedDocument([Strings],[Labels]) 工作,但这显然不起作用。

这是我的代码:

这是我得到的错误:

0 投票
1 回答
74 浏览

doc2vec - 使用 doc2vec 从一列行文本中识别产品名称

我有一列行文本。从行文本列中,我会得到类似于产品名称列表的名称。我正在使用 Doc2Vec 来解决这个问题。但是我的成绩一直很差。哪个是解决这个问题的正确方法?

我的数据如下: LINE TEXT: 托盘 10kg 鸡肉weldcote 金属物流 100th main, bolulvedour ave 19th main ST john 5670987

我用来获得最相似名称的产品列表是 mat_subset=[英国尺码 10 鞋、超干饰边、重 10 公斤的盒子、托盘等]

我的行文本是我的 OCR 输出,非常不错。我使用的 Doc2Vec 代码如下。

这是我用过的代码。其中 mat_subset 是我的产品名称列表。我对python很陌生,如果我做错了什么,请纠正我

0 投票
1 回答
966 浏览

python - Gensim Doc2Vec 为模型生成巨大的文件

我正在尝试从 gensim 包运行 doc2vec 库。我的问题是,当我训练和保存模型时,模型文件相当大(2.5 GB),我尝试使用这一行:

但这并没有改变什么。我还尝试更改 max_vocab_size 以减少空间。但是没有运气。有人可以帮我解决这个问题吗?

0 投票
1 回答
4275 浏览

python - Doc2Vec 比 Word2Vec 向量的平均值或总和更差

我正在训练一个Word2Vec模型,例如:

Doc2Vec模型如:

具有相同的数据和可比的参数。

在此之后,我将这些模型用于我的分类任务。而且我发现,简单地对word2vec文档的嵌入进行平均或求和比使用doc2vec向量要好得多。我还尝试了更多的doc2vec迭代(25、80 和 150 - 没有区别)。

任何提示或想法为什么以及如何改善doc2vec结果?

更新:这是如何doc2vec_tagged_documents创建的:

关于我的数据的更多事实:

  • 我的训练数据包含 4000 个文档
  • 平均900字。
  • 我的词汇量大约是1000字。
  • 我用于分类任务的数据平均要小得多(平均 12 个单词),但我也尝试将训练数据拆分为行并doc2vec像这样训练模型,但结果几乎相同。
  • 我的数据与自然语言无关,请记住这一点。
0 投票
1 回答
492 浏览

nlp - 我可以从 doc2vec 模型的输出创建主题模型(例如 LDA)吗?

我确实使用 Doc2Vec 在我的语料库上记录了相似性,但它输出的相似性并不好。我想知道是否可以根据 Doc2Vec 提供的主题模型来提高模型的准确性以获得更好的相似性?

0 投票
1 回答
742 浏览

python - 文档聚类和可视化

我想测试一组文档是否有一些特殊的相似性,查看一个用每个人的向量表示构建的图,与其他文档的文本数据集一起显示。我猜他们会在一个可视化中在一起。

解决方案是使用 doc2vec 计算每个文档的向量并绘制它?可以以无人监督的方式完成吗?我应该使用哪个 python 库来获得 Word2vec 的那些漂亮的 2D 和 3D 表示?

0 投票
1 回答
222 浏览

gensim - 为什么 Doc2Vec.scale_vocab(...)['memory']['vocab'] 除以 700 得到词汇量?

来自https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb的 Doc2Vec 维基百科教程

输出是:

在原始论文中,他们将词汇量设置为 915,715。如果我们设置 min_count = 19,词汇量似乎相似。(词汇量 = 898,725)

700似乎相当武断,我在docs中没有看到任何提及。

0 投票
1 回答
946 浏览

python - Gensim Doc2vec 模型聚类成 K-means

我是 doc2vec 的新手,我希望你们中的一些人可以帮助我解决这个问题。我问过很多人关于这个问题,但没有人知道解决方案。

我想做的是将 Doc2vec 结果聚类到 k-means 中。请看下面的代码。

我收到此错误。

0 投票
1 回答
258 浏览

python - Gensim Doc2Vec 模型只生成有限数量的向量

我正在使用 gensim Doc2Vec模型来生成我的特征向量。这是我正在使用的代码(我已经解释了代码中的问题):

我只是想知道我是否做错了,或者是否应该设置任何其他参数?

更新:我正在使用TaggedDocument中的tags参数,当我将其更改为文本和数字的混合时,例如:Doc1、Doc2、...我看到生成向量的计数不同,但我仍然没有具有与预期相同数量的特征向量。