问题标签 [doc2vec]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

521 问题

0 投票

1 回答

1610 浏览

nlp - gensim中TaggedDocument和TaggedLineDocument的区别？以及如何处理目录中的文件？

我是 doc2vec 的新手，我希望使用它对一组文本进行分类。

我对 TaggedDocument 和 TaggedLineDocument 感到困惑。

1）两者有什么区别？TaggedLineDocument 是 TaggedDocuments 的集合吗？

2）如果我有一个包含所有文件的目录，如何为它们生成特征向量？我应该创建一个新文件，其中每一行都包含目录中文件的文本吗？

2017-07-11T23:34:25.637

0 投票

3 回答

22766 浏览

python - 如何在 gensim 中使用 TaggedDocument？

我有两个目录，我想从中读取它们的文本文件并标记它们，但我不知道如何通过TaggedDocument. 我认为它可以作为 TaggedDocument([Strings],[Labels]) 工作，但这显然不起作用。

这是我的代码：

这是我得到的错误：

python nltk gensim word2vec doc2vec

2017-07-16T06:35:56.530

0 投票

1 回答

74 浏览

doc2vec - 使用 doc2vec 从一列行文本中识别产品名称

我有一列行文本。从行文本列中，我会得到类似于产品名称列表的名称。我正在使用 Doc2Vec 来解决这个问题。但是我的成绩一直很差。哪个是解决这个问题的正确方法？

我的数据如下： LINE TEXT: 托盘 10kg 鸡肉weldcote 金属物流 100th main, bolulvedour ave 19th main ST john 5670987

我用来获得最相似名称的产品列表是 mat_subset=[英国尺码 10 鞋、超干饰边、重 10 公斤的盒子、托盘等]

我的行文本是我的 OCR 输出，非常不错。我使用的 Doc2Vec 代码如下。

这是我用过的代码。其中 mat_subset 是我的产品名称列表。我对python很陌生，如果我做错了什么，请纠正我

doc2vec

2017-07-19T11:10:05.847

0 投票

1 回答

966 浏览

python - Gensim Doc2Vec 为模型生成巨大的文件

我正在尝试从 gensim 包运行 doc2vec 库。我的问题是，当我训练和保存模型时，模型文件相当大（2.5 GB），我尝试使用这一行：

但这并没有改变什么。我还尝试更改 max_vocab_size 以减少空间。但是没有运气。有人可以帮我解决这个问题吗？

python semantics gensim word2vec doc2vec

2017-07-19T15:37:04.623

0 投票

1 回答

4275 浏览

python - Doc2Vec 比 Word2Vec 向量的平均值或总和更差

我正在训练一个Word2Vec模型，例如：

和Doc2Vec模型如：

具有相同的数据和可比的参数。

在此之后，我将这些模型用于我的分类任务。而且我发现，简单地对word2vec文档的嵌入进行平均或求和比使用doc2vec向量要好得多。我还尝试了更多的doc2vec迭代（25、80 和 150 - 没有区别）。

任何提示或想法为什么以及如何改善doc2vec结果？

更新：这是如何doc2vec_tagged_documents创建的：

关于我的数据的更多事实：

我的训练数据包含 4000 个文档
平均900字。
我的词汇量大约是1000字。
我用于分类任务的数据平均要小得多（平均 12 个单词），但我也尝试将训练数据拆分为行并doc2vec像这样训练模型，但结果几乎相同。
我的数据与自然语言无关，请记住这一点。

python machine-learning gensim word2vec doc2vec

2017-07-21T09:40:29.973

0 投票

1 回答

492 浏览

nlp - 我可以从 doc2vec 模型的输出创建主题模型（例如 LDA）吗？

我确实使用 Doc2Vec 在我的语料库上记录了相似性，但它输出的相似性并不好。我想知道是否可以根据 Doc2Vec 提供的主题模型来提高模型的准确性以获得更好的相似性？

nlp gensim lda topic-modeling doc2vec

2017-07-21T17:19:59.380

0 投票

1 回答

742 浏览

python - 文档聚类和可视化

我想测试一组文档是否有一些特殊的相似性，查看一个用每个人的向量表示构建的图，与其他文档的文本数据集一起显示。我猜他们会在一个可视化中在一起。

解决方案是使用 doc2vec 计算每个文档的向量并绘制它？可以以无人监督的方式完成吗？我应该使用哪个 python 库来获得 Word2vec 的那些漂亮的 2D 和 3D 表示？

python doc2vec

2017-07-27T14:07:23.507

0 投票

1 回答

222 浏览

gensim - 为什么 Doc2Vec.scale_vocab(...)['memory']['vocab'] 除以 700 得到词汇量？

来自https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb的 Doc2Vec 维基百科教程

输出是：

在原始论文中，他们将词汇量设置为 915,715。如果我们设置 min_count = 19，词汇量似乎相似。（词汇量 = 898,725）

700似乎相当武断，我在docs中没有看到任何提及。

gensim doc2vec

2017-07-31T14:48:32.820

0 投票

1 回答

946 浏览

python - Gensim Doc2vec 模型聚类成 K-means

我是 doc2vec 的新手，我希望你们中的一些人可以帮助我解决这个问题。我问过很多人关于这个问题，但没有人知道解决方案。

我想做的是将 Doc2vec 结果聚类到 k-means 中。请看下面的代码。

我收到此错误。

python k-means gensim doc2vec

user8400385

2017-08-02T07:38:26.233

0 投票

1 回答

258 浏览

python - Gensim Doc2Vec 模型只生成有限数量的向量

我正在使用 gensim Doc2Vec模型来生成我的特征向量。这是我正在使用的代码（我已经解释了代码中的问题）：

我只是想知道我是否做错了，或者是否应该设置任何其他参数？

更新：我正在使用TaggedDocument中的tags参数，当我将其更改为文本和数字的混合时，例如：Doc1、Doc2、...我看到生成向量的计数不同，但我仍然没有具有与预期相同数量的特征向量。

python nlp gensim doc2vec

2017-08-02T17:46:00.120

1 2 3 4 5 6 7 8 9 10

问题标签 [doc2vec]

Reference