问题标签 [doc2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
686 浏览

python - 聚合聚类以聚类 doc2vec

我是 Agglomerative Clustering 和 doc2vec 的新手,所以我希望有人可以帮助我解决以下问题。

这是我的代码:

我想要的是预测每个观察的距离的平均值。我收到以下错误:

0 投票
1 回答
857 浏览

word2vec - 针对公司名称相似性训练 doc2vec

我正在尝试使用名称相似性对大量公司(40M+)进行重复数据删除。我有 500K 的公司名称对标记为相同/不同(如 IBM=International Business Machines)。通过对名称对的向量差异进行逻辑回归建立的模型具有很高的 f 值(0.98),但推理(找到最相似的名称)太慢(每个名称几乎 2 秒)。

是否可以使用名称相似性对(正负)来训练 doc2vec 模型,从而导致相似的名称具有相似的向量,以便我可以使用像 Annoy 这样的快速向量相似性算法?

0 投票
0 回答
291 浏览

nlp - 存储 Doc2vec gensim 模型时出现 Pickel 错误

我正在尝试保存 gensim Doc2vec 模型。该模型在 900 万个文档向量和大约 100 万个单词的词汇上进行了训练。但是我收到了pickel错误。“top”表示该程序使用了大约 13GB 的 RAM。另外我认为,由于我需要在需要时为新文档重新训练模型,因此必须保存所有参数。

内存错误

0 投票
1 回答
1101 浏览

nlp - 如何用自己的词汇训练 word2vec

我在用自己的词汇训练 word2vec 时出错。我也不明白为什么会这样。

代码:

它抛出一个错误

test_data 包含:

英格学士是一门课程。M.Tech 是一门课程。我是一门课程。B.Tech是一门课程。文学学士学位是一门课程。时装设计是一门课程。多媒体是一门课程。机械工程是一门课程。计算机科学是一门课程。电子是一个来源。工程学是一门课程。MBA是一门课程。BBA是一门课程。

任何帮助表示赞赏?

0 投票
3 回答
925 浏览

python - 使用 Doc2vec 后如何解释集群结果?

我正在使用 doc2vec 将我的追随者的前 100 条推文转换为矢量表示(比如 v1.....v100)。之后,我使用向量表示来进行 K-Means 聚类。

我可以看到集群 0 由一些值(比如 v10、v12、v23 ......)支配。我的问题是这些 v10、v12 ... 等代表什么。我可以推断出这些特定列聚集了文档的特定关键字吗?

0 投票
1 回答
877 浏览

python - Gensim Doc2vec finalize_vocab 内存错误

我正在尝试使用 gensim 训练 Doc2Vec 模型,该模型具有 114M 唯一文档/标签和大约 3M 唯一单词的词汇大小。我在 Azure 上有 115GB Ram linux 机器。当我运行 build_vocab 时,迭代器会解析所有文件,然后抛出如下所示的内存错误。

我的代码-

根据顶部的内存使用情况是-

在此处输入图像描述

有人可以告诉我预期的内存是多少吗?什么是更好的选择 - 添加交换空间并减慢进程或添加更多内存,以便集群的成本最终可能相等。gensim 将哪些向量存储在内存中?我为内存有效使用而缺少的任何标志。

0 投票
1 回答
3336 浏览

nlp - 使用 doc2vec 获得良好性能所需的最小数据集大小是多少?

在不同大小的数据集上训练时,doc2vec 的表现如何?原始语料库中没有提到数据集大小,所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少。

0 投票
1 回答
4422 浏览

nlp - gensim doc2vec "intersect_word2vec_format" 命令

只需阅读 gensim 页面上的 doc2vec 命令即可。

我对命令“intersect_word2vec_format”很好奇。

我对这个命令的理解是它让我可以将预训练的 word2vec 模型中的向量值注入到我的 doc2vec 模型中,然后使用预训练的 word2vec 值训练我的 doc2vec 模型,而不是从我的文档语料库中生成词向量值。结果是我得到了一个更准确的 doc2vec 模型,因为与我相对较小的文档语料库相比,我使用的是从更大的数据语料库生成的预训练 w2v 值。

我对这个命令的理解是正确的还是不接近?;-)

0 投票
2 回答
2951 浏览

python - 如何在 doc2vec 中查找文档中最相似的术语/单词?

我已经应用 Doc2vec 将文档转换为向量。之后,我在聚类中使用了向量,并找出了与每个集群的质心最近/最相似的 5 个文档。现在我需要找到这些文档中最主要或最重要的术语,以便弄清楚每个集群的特征。我的问题是有什么方法可以找出 Doc2vec 中文档中最主要或最相似的术语/单词。我正在为 Doc2vec 实现使用 python 的 gensim 包

0 投票
1 回答
2844 浏览

python - doc2vec 中单个文档的多个标签。标记文档

是否可以训练单个文档具有多个标签的 doc2vec 模型?例如,在电影评论中,

在每个文档都有唯一标签 (UID) 和多个分类标签的情况下,我如何在训练后访问向量?例如,最合适的调用语法是什么