问题标签 [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Convert word2vec bin file to text
From the word2vec site I can download GoogleNews-vectors-negative300.bin.gz. The .bin file (about 3.4GB) is a binary format not useful to me. Tomas Mikolov assures us that "It should be fairly straightforward to convert the binary format to text format (though that will take more disk space). Check the code in the distance tool, it's rather trivial to read the binary file." Unfortunately, I don't know enough C to understand http://word2vec.googlecode.com/svn/trunk/distance.c.
Supposedly gensim can do this also, but all the tutorials I've found seem to be about converting from text, not the other way.
Can someone suggest modifications to the C code or instructions for gensim to emit text?
python - 如何将 Gensim doc2vec 与预训练的词向量一起使用?
我最近遇到了对 Gensim 的 doc2vec 补充。如何在 doc2vec 中使用预训练的词向量(例如在 word2vec 原始网站中找到的)?
还是 doc2vec 从它用于段落向量训练的相同句子中获取词向量?
谢谢。
nlp - 如何创建词向量
如何创建词向量?我使用一个热键来创建词向量,但它非常庞大,对于语义相似的词没有泛化。所以我听说过使用神经网络找到词相似度和词向量的词向量。所以我想知道如何生成这个向量(算法)或开始创建词向量的好材料?
python - 错误:“utf8”编解码器无法解码位置 0 中的字节 0x80:起始字节无效
我正在尝试执行以下kaggle assignmnet。我正在使用 gensim 包来使用 word2vec。我能够创建模型并将其存储到磁盘。但是,当我尝试重新加载文件时,出现以下错误。
我发现类似的问题。但我无法解决问题。我的 prog_w2v.py 如下。
我正在尝试使用此处的代码生成模型。该程序大约需要半个小时来生成模型。因此我无法多次运行它来调试它。
python-2.7 - Kaggle word2vec 竞赛,第 2 部分
我的代码来自:https ://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-2-word-vectors ,我读取数据成功, 这里用于BeautifulSoup和nltk来清理文本,删除非字母但数字。
但是当我继续到这里时,无法继续前进。
wordnet - 给定单词相似度推断句子相似度
假设我对两个句子中的每对单词都有一个单词相似度分数,那么从这些分数中确定整体句子相似度的体面方法是什么?
单词分数是使用来自表示每个单词的向量的余弦相似度来计算的。
既然我有单个单词的分数,那么将单个单词的分数相加并除以两个句子的总字数以获得两个句子的分数是否太天真了?
我已经阅读了有关进一步构建向量来表示句子的信息,使用单词分数,然后再次使用余弦相似度来比较句子。但是我不熟悉如何从现有的单词分数中构造句子向量。我也不知道与上面描述的幼稚方法相比有什么权衡,至少我可以很容易地理解。:)。
非常感谢任何见解。
谢谢。
word2vec - 如何使用 word2vec 训练 p(category|title) 模型
使用word2vec,目标是最大化语料概率p(word|context),上下文以词的形式出现。
假设给定一个语料库 Titles 和它们的类别(如运动、食物...),如何使用 word2vec 训练一个模型来预测 p(category|title)。
scala - 从 Apache Spark 中的文件中联合一系列 RDD 的内存有效方法
我目前正在尝试在 UMBC Webbase Corpus 上训练一组 Word2Vec 向量(400 个文件中大约 30GB 的文本)。
即使在 100 GB 以上的机器上,我也经常遇到内存不足的情况。我在应用程序本身中运行 Spark。我尝试稍微调整一下,但我无法对超过 10 GB 的文本数据执行此操作。我的实现的明显瓶颈是先前计算的 RDD 的联合,即内存不足异常的来源。
也许您有经验提出比这更有效的内存实现: