问题标签 [doc2vec]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

521 问题

0 投票

1 回答

686 浏览

python - 聚合聚类以聚类 doc2vec

我是 Agglomerative Clustering 和 doc2vec 的新手，所以我希望有人可以帮助我解决以下问题。

这是我的代码：

我想要的是预测每个观察的距离的平均值。我收到以下错误：

user8400385

2017-08-10T09:39:58.050

0 投票

1 回答

857 浏览

word2vec - 针对公司名称相似性训练 doc2vec

我正在尝试使用名称相似性对大量公司（40M+）进行重复数据删除。我有 500K 的公司名称对标记为相同/不同（如 IBM=International Business Machines）。通过对名称对的向量差异进行逻辑回归建立的模型具有很高的 f 值（0.98），但推理（找到最相似的名称）太慢（每个名称几乎 2 秒）。

是否可以使用名称相似性对（正负）来训练 doc2vec 模型，从而导致相似的名称具有相似的向量，以便我可以使用像 Annoy 这样的快速向量相似性算法？

word2vec doc2vec sentence-similarity

2017-08-13T10:20:55.207

0 投票

0 回答

291 浏览

nlp - 存储 Doc2vec gensim 模型时出现 Pickel 错误

我正在尝试保存 gensim Doc2vec 模型。该模型在 900 万个文档向量和大约 100 万个单词的词汇上进行了训练。但是我收到了pickel错误。“top”表示该程序使用了大约 13GB 的 RAM。另外我认为，由于我需要在需要时为新文档重新训练模型，因此必须保存所有参数。

内存错误

nlp pickle gensim doc2vec

2017-08-20T15:25:44.700

0 投票

1 回答

1101 浏览

nlp - 如何用自己的词汇训练 word2vec

我在用自己的词汇训练 word2vec 时出错。我也不明白为什么会这样。

代码：

它抛出一个错误

test_data 包含：

英格学士是一门课程。M.Tech 是一门课程。我是一门课程。B.Tech是一门课程。文学学士学位是一门课程。时装设计是一门课程。多媒体是一门课程。机械工程是一门课程。计算机科学是一门课程。电子是一个来源。工程学是一门课程。MBA是一门课程。BBA是一门课程。

任何帮助表示赞赏？

nlp stanford-nlp word2vec doc2vec

2017-08-27T11:32:49.690

0 投票

3 回答

925 浏览

python - 使用 Doc2vec 后如何解释集群结果？

我正在使用 doc2vec 将我的追随者的前 100 条推文转换为矢量表示（比如 v1.....v100）。之后，我使用向量表示来进行 K-Means 聚类。

我可以看到集群 0 由一些值（比如 v10、v12、v23 ......）支配。我的问题是这些 v10、v12 ... 等代表什么。我可以推断出这些特定列聚集了文档的特定关键字吗？

python scikit-learn cluster-analysis gensim doc2vec

2017-08-28T11:31:30.017

0 投票

1 回答

877 浏览

python - Gensim Doc2vec finalize_vocab 内存错误

我正在尝试使用 gensim 训练 Doc2Vec 模型，该模型具有 114M 唯一文档/标签和大约 3M 唯一单词的词汇大小。我在 Azure 上有 115GB Ram linux 机器。当我运行 build_vocab 时，迭代器会解析所有文件，然后抛出如下所示的内存错误。

我的代码-

根据顶部的内存使用情况是-

有人可以告诉我预期的内存是多少吗？什么是更好的选择 - 添加交换空间并减慢进程或添加更多内存，以便集群的成本最终可能相等。gensim 将哪些向量存储在内存中？我为内存有效使用而缺少的任何标志。

python nlp gensim doc2vec

2017-08-29T16:13:47.670

0 投票

1 回答

3336 浏览

nlp - 使用 doc2vec 获得良好性能所需的最小数据集大小是多少？

在不同大小的数据集上训练时，doc2vec 的表现如何？原始语料库中没有提到数据集大小，所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少。

nlp doc2vec

2017-08-30T11:48:23.557

0 投票

1 回答

4422 浏览

nlp - gensim doc2vec "intersect_word2vec_format" 命令

只需阅读 gensim 页面上的 doc2vec 命令即可。

我对命令“intersect_word2vec_format”很好奇。

我对这个命令的理解是它让我可以将预训练的 word2vec 模型中的向量值注入到我的 doc2vec 模型中，然后使用预训练的 word2vec 值训练我的 doc2vec 模型，而不是从我的文档语料库中生成词向量值。结果是我得到了一个更准确的 doc2vec 模型，因为与我相对较小的文档语料库相比，我使用的是从更大的数据语料库生成的预训练 w2v 值。

我对这个命令的理解是正确的还是不接近？;-)

nlp gensim doc2vec

2017-09-02T11:26:06.367

0 投票

2 回答

2951 浏览

python - 如何在 doc2vec 中查找文档中最相似的术语/单词？

我已经应用 Doc2vec 将文档转换为向量。之后，我在聚类中使用了向量，并找出了与每个集群的质心最近/最相似的 5 个文档。现在我需要找到这些文档中最主要或最重要的术语，以便弄清楚每个集群的特征。我的问题是有什么方法可以找出 Doc2vec 中文档中最主要或最相似的术语/单词。我正在为 Doc2vec 实现使用 python 的 gensim 包

python cluster-analysis gensim word2vec doc2vec

2017-09-05T05:23:46.753

0 投票

1 回答

2844 浏览

python - doc2vec 中单个文档的多个标签。标记文档

是否可以训练单个文档具有多个标签的 doc2vec 模型？例如，在电影评论中，

在每个文档都有唯一标签 (UID) 和多个分类标签的情况下，我如何在训练后访问向量？例如，最合适的调用语法是什么

python nlp gensim word2vec doc2vec

2017-09-06T19:52:17.350

1 2 3 4 5 6 7 8 9 10

问题标签 [doc2vec]

Reference