问题标签 [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 安装 python word2vec 时出错
安装 python word2vec 时出现以下错误。我应该怎么办?
python - word2vec 得到编码错误
执行代码时出现以下错误
我的代码在这里
cuda - 并行化伪代码以在 GPU 上工作:克服未对齐的内存访问
这是我试图并行化的伪代码(取自 word2vec C 代码)。首先,我将列出具有相应大小的数据结构,然后是伪代码:
程序的输入是一个文本文件。然后程序一次处理一个单词以建立一个词汇表。例如,如果我的文本文件有一个句子
“并行编程非常有趣”</p>
那么词汇表看起来像这样(因为代码根据单词的频率对词汇表进行排序):
构建词汇表后,代码再次开始处理文本,一次处理 1000 个单词。前 1000 个单词存储在 中sen[MAX_SENTENCE_LENGTH]
,然后针对 中的所有单词训练一个神经网络sen
,这个过程一直持续到文件末尾。对于上面的句子,sen
将如下所示[1,2,3,0,0,4]
。
假设训练只在一次迭代中完成,伪代码如下:
我认为并行化的最佳方法是并行处理句子中的单词。考虑到所有循环,我认为我应该N
每个单词使用线程,以便单个线程在syn0, syn1neg
每个循环中只访问一次全局内存()。此外,由于所有neu1
和neu1e
更新都是独立的,它们可以驻留在线程的私有内存中并独立更新。
我现在主要担心以下几点:
- 全局内存访问以随机方式发生,因为
syn0
和syn1neg
是根据word
变量的值(词汇表中的索引)访问的。而且,正如我们所见,句子中的单词不会以任何顺序出现。
这是一个大问题吗?或者,我们可以通过为 GPU 提供足够数量的线程来隐藏内存延迟吗?另外,我不明白这种访问模式是否真的是随机的,因为 N 个线程/字将访问 syn0 和 syn1neg 中的顺序数据,但下一组 N 个线程可能会访问位于内存中很远的顺序数据。
- 在负采样循环中,需要进行归约操作。该变量
f
是点积的总和。问题是我打算存储neu1
在每个线程的私有内存中,而syn1neg
在全局内存中。
负采样是否需要单独的内核?看起来它需要一种与仅启动 N 个线程/单词不同的方法,但我不确定哪种方法最有效。
除了这些问题,请提出我处理此代码的方式是否存在问题。
python - 如何通过word2vec获取反义词?
我目前正在使用 Python 中的 gensim 研究 word2vec 模型,并想编写一个函数来帮助我找到给定单词的反义词和同义词。例如: antonym("sad")="happy" synonym("upset")="enraged"
有没有办法在 word2vec 中做到这一点?
gensim - 将 Doc2Vec 句子组合成段落向量
在 Gensim 的 Doc2Vec 中,如何结合句子向量来为段落制作单个向量?我意识到你可以训练整个段落,但显然训练单个句子、上下文等会更好。(我认为......?)
有什么建议或正常用例吗?
另外,我将如何从模型中检索句子/段落向量?
python - 如何从保存的矢量文本文件中获取矢量?
我已经Word2vec
在 Python 中训练了模型,并将所有这些单词对应的向量(大小 = 300)保存在vec.txt
文件中,现在如果我得到一个单词,我需要获取相应的向量并为那些做一些 aclatue向量。但我不知道如何从 txt 文件中获取这些向量。
以下是部分内容vec.txt
:
new -0.000113 0.000211 -0.000170 0.000346 -0.000251 -0.001012 0.001647 -0.001331 0.001267 0.000876 0.001243 -0.000600 -0.000667 -0.001241 0.001204 -0.000726 -0.001023 0.001476 -0.001380 0.000065 0.000145 0.001451 0.001275 0.001482 -0.001011 0.001131 0.001095 -0.001637 0.000289 -0.000846 0.001599 -0.001027 -0.000768 -0.000595 0.000825 0.000639 -0.001097 -0.001654 -0.000977 -0.000351 0.001410 0.001182 0.000318 -0.000454 -0.000622 0.000343 0.000508 -0.000258 0.001347 0.000362 0.000372 -0.000208 0.000896 0.001408 0.001412 -0.001566 0.001642 -0.000865 -0.000656 0.001095 -0.001503 -0.000483 0.000465 0.001352 0.000602 -0.000017 0.000011 0.001219 0.001363 0.001296 -0.000474 0.000718 -0.000544 0.000779 -0.001225 -0.001141 -0.001061 -0.000550 0.001446 0.000735 0.000735 0.00001267 0.001269 0.001269 0.00111501501501501501564-0.000.000.000.000.000.000.00.00.00.00.00.00.00.00.00.00. 00. 00. 00. 00. 00. 00. 00. 00. 00. 00. 00. 00py. 00.00气000734 -0.000344 0.000376 -0.001550 0.001241 0.000294 0.000207 -0.001420 0.000297 0.001122 0.000834 -0.001423 -0.001499 0.001060 0.000898 0.001609 -0.000512 -0.001185 -0.001648 0.001328 0.001620 0.001344 0.000160 0.000567 -0.001665 -0.000246 -0.000274 0.001234 0.000659 0.000144 -0.001370 0.001457 -0.000025 0.001117 0.000249 0.000137 - 0.000048 -0.000527 -0.000428 0.000305 -0.001058 0.001374 0.000369 0.001588 0.000085 0.000749 -0.001584 0.000918 -0.001196 0.000424 0.000651 -0.001387 0.000815 -0.000959 0.001261 -0.001246 0.000258 -0.000887 0.001583 0.000102 -0.001337 0.000428 -0.000004 0.000131 0.000487 -0.001659 0.000093 0.001464 0.000356 -0.001479 -0.001217 - 0.000626 0.001019 0.001179 -0.000599 0.000825 0.000858 -0.000841 0.000399 -0.001587 -0.000923 -0.000496 -0.000668 0.000567 0.001308 0.001042 -0.000676 0.001292 -0.001345 0.000113 0.000021 -0.000577 0.000292 0.001052 -0.001646 -0.001186 0.000184 0.000747 -0.001190 -0.001472 0.000535 0.000199 0.000522 -0.000229 -0.000277 -0.000136 0.001568 -0.000509 -0.000065 0.000305 0.001245 -0.001371 -0.001378 -0.000742 0.000411 -0.000461 0.001547 0.001272 0.001339 0.000181 -0.001335 0.000257 -0.000001 0.001494 -0.001379 -0.000635 -0.001195 -0.001483 0.000744 -0.000203 0.000407 -0.000061 -0.001561 0.000239 0.000370 0.000227 -0.000043 -0.001377 -0.000961 -0.001038 0.001575 0.000618 0.000218 0.001260 0.000971 0.000572 0.001307 0.000362 -0.000844 -0.000281 0.000440 -0.001122 0.000097 0.001392 0.000427 0.000913 -0.000537 -0.000889 0.000799 - 0.001422 0.001501 0.001130 -0.000633 -0.000747 0.001198 0.000235 0.001335 0.000273 -0.000906 -0.000551 0.000527 0.000900 -0.001294 0.000451 -0.001180 -0.001376 0.000287 0.001508 0.000068 0.000225 0.000504 0.000137 -0.001071 -0.001383 0.001414 -0.000946 0.001358 -0.001146 -0.000623 0.000656 0.001605 0.000519 0.000106 0.001341 -0.000560 -0.001359 0.000721 0.001653 -0.000643 0.000625 0.000133 -0.000321 0.001230 0.000046 -0.001030 0.000752 0.000108 0.001263 0.000562 0.001224
如果我得到“新”,我需要从vec.txt
文件中获取 300 个对应的新向量。
python - Gensim 需要 C 编译器吗?
抱歉,我没有足够的声誉来发布图片。
主要问题是它告诉我需要安装 C 编译器并重新安装 gensim 否则火车会很慢,实际上它真的很慢。
我已经安装了 mingw32、Visual Studio 2008,并将 mingw32 环境变量添加到我的路径中。
关于如何解决它的任何想法?
python - Apache Spark - 特征提取 Word2Vec 示例和异常
A. 以下是我的配置:
操作系统:Windows 7
Spark 版本:1.4.1(问题也出现在 1.4.0 中)
语言:Python 和 Scala 都有
B. 示例源代码:
C.Following 是堆栈跟踪:
有什么线索吗?
此致,
维沙尔
python - Error while loading Word2Vec model in gensim
I'm getting an AttributeError
while loading the gensim model available at word2vec repository:
Is this a known issue ?
gensim - word2vec 的概率输出
我是 word2vec 世界的新手,我刚刚开始使用 gensim 的 word2vec 实现。
我使用两个天真的句子作为我的第一个文档集,
我得到的向量是这样的:
但是,当我输入另一个玩具文档集时:
我得到以下结果:
同样,我是 word2vec 的新手,但根据我的理解,我的两个文档集在结构上是相同的,因此相应单词的结果应该是相同的。但为什么我得到不同的结果?算法总是给出概率输出还是文档集太小?
我使用的功能如下: