问题标签 [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
52721 浏览

python - Convert word2vec bin file to text

From the word2vec site I can download GoogleNews-vectors-negative300.bin.gz. The .bin file (about 3.4GB) is a binary format not useful to me. Tomas Mikolov assures us that "It should be fairly straightforward to convert the binary format to text format (though that will take more disk space). Check the code in the distance tool, it's rather trivial to read the binary file." Unfortunately, I don't know enough C to understand http://word2vec.googlecode.com/svn/trunk/distance.c.

Supposedly gensim can do this also, but all the tutorials I've found seem to be about converting from text, not the other way.

Can someone suggest modifications to the C code or instructions for gensim to emit text?

0 投票
0 回答
282 浏览

neural-network - 向 doc2vec 添加输入

我最近开始使用word2vecdoc2vec方法。他们是了不起的!但我想和他们玩一会儿。当我比较这两种方法时,我发现不同之处在于,在 doc2vec 方法中,神经网络有一个额外的输入,即 docMatrix。我想向神经网络添加一个输入(它是来自其他地方的训练向量)并获取文档的输出向量。做起来容易吗?有人可以帮我理解 word2vec 代码中到底发生了什么吗?谢谢 :)

0 投票
4 回答
40018 浏览

python - 如何将 Gensim doc2vec 与预训练的词向量一起使用?

我最近遇到了对 Gensim 的 doc2vec 补充。如何在 doc2vec 中使用预训练的词向量(例如在 word2vec 原始网站中找到的)?

还是 doc2vec 从它用于段落向量训练的相同句子中获取词向量?

谢谢。

0 投票
2 回答
11430 浏览

nlp - 如何创建词向量

如何创建词向量?我使用一个热键来创建词向量,但它非常庞大,对于语义相似的词没有泛化。所以我听说过使用神经网络找到词相似度和词向量的词向量。所以我想知道如何生成这个向量(算法)或开始创建词向量的好材料?

0 投票
4 回答
22234 浏览

python - 错误:“utf8”编解码器无法解码位置 0 中的字节 0x80:起始字节无效

我正在尝试执行以下kaggle assignmnet。我正在使用 gensim 包来使用 word2vec。我能够创建模型并将其存储到磁盘。但是,当我尝试重新加载文件时,出现以下错误。

我发现类似的问题。但我无法解决问题。我的 prog_w2v.py 如下。

我正在尝试使用此处的代码生成模型。该程序大约需要半个小时来生成模型。因此我无法多次运行它来调试它。

0 投票
3 回答
47937 浏览

machine-learning - word2vec:负采样(外行术语)?

我正在阅读下面的论文,但在理解负采样的概念时遇到了一些麻烦。

http://arxiv.org/pdf/1402.3722v1.pdf

有人可以帮忙吗?

0 投票
1 回答
497 浏览

python-2.7 - Kaggle word2vec 竞赛,第 2 部分

我的代码来自:https ://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-2-word-vectors ,我读取数据成功, 这里用于BeautifulSoup和nltk来清理文本,删除非字母但数字。

但是当我继续到这里时,无法继续前进。

0 投票
2 回答
528 浏览

wordnet - 给定单词相似度推断句子相似度

假设我对两个句子中的每对单词都有一个单词相似度分数,那么从这些分数中确定整体句子相似度的体面方法是什么?

单词分数是使用来自表示每个单词的向量的余弦相似度来计算的。

既然我有单个单词的分数,那么将单个单词的分数相加并除以两个句子的总字数以获得两个句子的分数是否太天真了?

我已经阅读了有关进一步构建向量来表示句子的信息,使用单词分数,然后再次使用余弦相似度来比较句子。但是我不熟悉如何从现有的单词分数中构造句子向量。我也不知道与上面描述的幼稚方法相比有什么权衡,至少我可以很容易地理解。:)。

非常感谢任何见解。

谢谢。

0 投票
1 回答
683 浏览

word2vec - 如何使用 word2vec 训练 p(category|title) 模型

使用word2vec,目标是最大化语料概率p(word|context),上下文以词的形式出现。

假设给定一个语料库 Titles 和它们的类别(如运动、食物...),如何使用 word2vec 训练一个模型来预测 p(category|title)。

0 投票
2 回答
4208 浏览

scala - 从 Apache Spark 中的文件中联合一系列 RDD 的内存有效方法

我目前正在尝试在 UMBC Webbase Corpus 上训练一组 Word2Vec 向量(400 个文件中大约 30GB 的文本)。

即使在 100 GB 以上的机器上,我也经常遇到内存不足的情况。我在应用程序本身中运行 Spark。我尝试稍微调整一下,但我无法对超过 10 GB 的文本数据执行此操作。我的实现的明显瓶颈是先前计算的 RDD 的联合,即内存不足异常的来源。

也许您有经验提出比这更有效的内存实现: