问题标签 [doc2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 聚合聚类以聚类 doc2vec
我是 Agglomerative Clustering 和 doc2vec 的新手,所以我希望有人可以帮助我解决以下问题。
这是我的代码:
我想要的是预测每个观察的距离的平均值。我收到以下错误:
word2vec - 针对公司名称相似性训练 doc2vec
我正在尝试使用名称相似性对大量公司(40M+)进行重复数据删除。我有 500K 的公司名称对标记为相同/不同(如 IBM=International Business Machines)。通过对名称对的向量差异进行逻辑回归建立的模型具有很高的 f 值(0.98),但推理(找到最相似的名称)太慢(每个名称几乎 2 秒)。
是否可以使用名称相似性对(正负)来训练 doc2vec 模型,从而导致相似的名称具有相似的向量,以便我可以使用像 Annoy 这样的快速向量相似性算法?
nlp - 存储 Doc2vec gensim 模型时出现 Pickel 错误
我正在尝试保存 gensim Doc2vec 模型。该模型在 900 万个文档向量和大约 100 万个单词的词汇上进行了训练。但是我收到了pickel错误。“top”表示该程序使用了大约 13GB 的 RAM。另外我认为,由于我需要在需要时为新文档重新训练模型,因此必须保存所有参数。
内存错误
nlp - 如何用自己的词汇训练 word2vec
我在用自己的词汇训练 word2vec 时出错。我也不明白为什么会这样。
代码:
它抛出一个错误
test_data 包含:
英格学士是一门课程。M.Tech 是一门课程。我是一门课程。B.Tech是一门课程。文学学士学位是一门课程。时装设计是一门课程。多媒体是一门课程。机械工程是一门课程。计算机科学是一门课程。电子是一个来源。工程学是一门课程。MBA是一门课程。BBA是一门课程。
任何帮助表示赞赏?
python - 使用 Doc2vec 后如何解释集群结果?
我正在使用 doc2vec 将我的追随者的前 100 条推文转换为矢量表示(比如 v1.....v100)。之后,我使用向量表示来进行 K-Means 聚类。
我可以看到集群 0 由一些值(比如 v10、v12、v23 ......)支配。我的问题是这些 v10、v12 ... 等代表什么。我可以推断出这些特定列聚集了文档的特定关键字吗?
nlp - 使用 doc2vec 获得良好性能所需的最小数据集大小是多少?
在不同大小的数据集上训练时,doc2vec 的表现如何?原始语料库中没有提到数据集大小,所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少。
nlp - gensim doc2vec "intersect_word2vec_format" 命令
只需阅读 gensim 页面上的 doc2vec 命令即可。
我对命令“intersect_word2vec_format”很好奇。
我对这个命令的理解是它让我可以将预训练的 word2vec 模型中的向量值注入到我的 doc2vec 模型中,然后使用预训练的 word2vec 值训练我的 doc2vec 模型,而不是从我的文档语料库中生成词向量值。结果是我得到了一个更准确的 doc2vec 模型,因为与我相对较小的文档语料库相比,我使用的是从更大的数据语料库生成的预训练 w2v 值。
我对这个命令的理解是正确的还是不接近?;-)
python - 如何在 doc2vec 中查找文档中最相似的术语/单词?
我已经应用 Doc2vec 将文档转换为向量。之后,我在聚类中使用了向量,并找出了与每个集群的质心最近/最相似的 5 个文档。现在我需要找到这些文档中最主要或最重要的术语,以便弄清楚每个集群的特征。我的问题是有什么方法可以找出 Doc2vec 中文档中最主要或最相似的术语/单词。我正在为 Doc2vec 实现使用 python 的 gensim 包
python - doc2vec 中单个文档的多个标签。标记文档
是否可以训练单个文档具有多个标签的 doc2vec 模型?例如,在电影评论中,
在每个文档都有唯一标签 (UID) 和多个分类标签的情况下,我如何在训练后访问向量?例如,最合适的调用语法是什么