问题标签 [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4188 浏览

python - Gensim Word2vec 存储属性 syn0norm

我正在尝试将word2vec用于一个项目,经过培训,我得到:

有什么办法可以保存syn0norm.

我该怎么做?

0 投票
5 回答
4870 浏览

word2vec - 为什么 word2vec 对每个单词使用 2 种表示?

我试图理解为什么 word2vec 的 skipgram 模型对每个单词都有 2 个表示(隐藏表示,即单词嵌入)和输出表示(也称为上下文词嵌入)。这只是为了笼统,上下文可以是任何东西(不仅仅是单词)还是有更根本的原因

0 投票
2 回答
11713 浏览

python - 列表中两个单词之间的余弦相似度

我正在定义一个函数,它接受一个单词列表并返回关于列表中彼此之间具有非零余弦相似度(以及相似度值)的单词的信息。

谁能帮我解决这个问题。我在想如果我能得到一个预先计算好的 word2vec 矢量文件,那会很有帮助,但互联网上没有。

0 投票
4 回答
3424 浏览

python - Gensim word2vec 增强或合并预训练向量

我正在从 word2vec C 代码生成的二进制文件中加载预先训练的向量,例如:

我正在使用这些向量来生成句子的向量表示,其中包含在vectors.bin. 例如,如果vectors.bin没有与单词“yogurt”相关的向量,我尝试

我明白KeyError: 'yogurt'了,这很有意义。我想要的是能够将没有对应向量的句子单词添加到model_1. 我从这篇文章中了解到,您无法继续训练 C 向量。那么有没有办法为model_2没有向量的单词训练一个新模型并与model_2合并model_1

或者,有没有办法在我实际尝试检索模型之前测试模型是否包含一个单词,这样我至少可以避免 KeyError?

0 投票
1 回答
316 浏览

gensim - Missing sentences from the Doc2vec representation

I am using the Doc2vec class from the gensim framework to compute the vectorial representation of each document in a corpus.

The corpus contains very short sentences, they can have even one word. I observed that for many sentences, especially the short ones, Doc2vec does not provide any representations. Could someone explain the reasons for this?

0 投票
9 回答
73228 浏览

word2vec - 如何从句子中标记的word2vec中获取句子的向量

我已经使用 word2vec 从大型文档中生成了标记列表的向量。给定一个句子,是否有可能从句子中的标记向量中得到该句子的向量。

0 投票
1 回答
4282 浏览

python - Word2Vec 和 Gensim 参数等价

Gensim 是 Word2Vec 的优化 python 端口(参见http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/

我目前正在使用这些向量:http ://clic.cimec.unitn.it/composes/semantic-vectors.html

我将使用 gensim 重新运行模型训练,因为他们的模型中有一些嘈杂的标记。所以我想知道什么是word2vecin的一些等效参数gensim

他们使用的参数word2vec是:

  • 2 字上下文窗口,PMI 加权,无压缩,300K 维度

当我训练 Word2Vec 模型时,gensim 等价是什么?

是吗:

gensim 中是否有 PMI 权重选项?

word2vec 中使用的默认 min_count 是多少?

word2vec 还有另一组参数,例如:

  • 5 字上下文窗口,10 个负样本,二次抽样,400 维。

gensim中是否有负样本参数?

gensim中二次采样的参数等价是什么?

0 投票
1 回答
638 浏览

machine-learning - 在 AdaGram.jl 上训练文本的问题

我是 Julia 编程语言的新手。我正在尝试在我的机器上安装 Adaptive Skip-gram (AdaGram) 模型。我面临以下问题。在训练模型之前,我们需要分词文件和字典文件。现在我的问题是,应该为 tokenize.sh 和 dictionary.sh 提供什么输入。请让我知道生成输出文件的实际方式以及相同的扩展名。

这是我指的网站链接:https ://github.com/sbos/AdaGram.jl 。这与https://code.google.com/p/word2vec/完全相同

0 投票
1 回答
63 浏览

nlp - 从网页池中,查找与任何给定网页相似的网页

我得到了一组网页,我需要构建一个页面推荐器。无论向应用程序提供哪个 URL,应用程序都应该能够从给定池中找到与 URL 上的页面相似的页面。


我尝试寻找不同的方法来做到这一点。word2vec 的使用让我很感兴趣。我计划爬取所有给定的网页集,并根据该页面中的内容为该页面生成标签。从这些标签中,我希望使用 word2vec 来计算页面的向量值并存储它。搜索时,我会以类似的方式计算给定页面的向量以查找类似的值。这是使用 word2vec 的正确方法吗?应该使用什么训练向量?还有其他更好的方法来完成这项任务吗?或者只是纯文本匹配会是更好的选择?

0 投票
1 回答
1074 浏览

nlp - 使用 word2vec 计算用户之间的相似度

我最近开始了解这个名为 word2vec 的工具。对于我目前的工作,我需要找出与给定用户相似的用户。单个用户具有与其相关联的实体,例如年龄、资格、机构/组织、已知语言和某些标签列表。如果我们将这些实体/列中的每一个一起视为用户的随机词块,我们是否可以相应地计算该用户的向量值并使用这些值来推断用户之间的相似性?wiki 训练向量会帮助我们获得有意义的结果吗?还有其他方法吗?