“word2vec”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

300 浏览

python - 安装 python word2vec 时出错

安装 python word2vec 时出现以下错误。我应该怎么办？

python word2vec

2015-07-30T15:40:14.497

0 投票

1 回答

1217 浏览

python - word2vec 得到编码错误

执行代码时出现以下错误

我的代码在这里

python word2vec

2015-07-31T07:25:08.127

0 投票

1 回答

507 浏览

cuda - 并行化伪代码以在 GPU 上工作：克服未对齐的内存访问

这是我试图并行化的伪代码（取自 word2vec C 代码）。首先，我将列出具有相应大小的数据结构，然后是伪代码：

程序的输入是一个文本文件。然后程序一次处理一个单词以建立一个词汇表。例如，如果我的文本文件有一个句子

“并行编程非常有趣”</p>

那么词汇表看起来像这样（因为代码根据单词的频率对词汇表进行排序）：

构建词汇表后，代码再次开始处理文本，一次处理 1000 个单词。前 1000 个单词存储在中sen[MAX_SENTENCE_LENGTH]，然后针对中的所有单词训练一个神经网络sen，这个过程一直持续到文件末尾。对于上面的句子，sen将如下所示[1,2,3,0,0,4]。

假设训练只在一次迭代中完成，伪代码如下：

我认为并行化的最佳方法是并行处理句子中的单词。考虑到所有循环，我认为我应该N每个单词使用线程，以便单个线程在syn0, syn1neg每个循环中只访问一次全局内存（）。此外，由于所有neu1和neu1e更新都是独立的，它们可以驻留在线程的私有内存中并独立更新。

我现在主要担心以下几点：

全局内存访问以随机方式发生，因为syn0和syn1neg是根据word变量的值（词汇表中的索引）访问的。而且，正如我们所见，句子中的单词不会以任何顺序出现。

这是一个大问题吗？或者，我们可以通过为 GPU 提供足够数量的线程来隐藏内存延迟吗？另外，我不明白这种访问模式是否真的是随机的，因为 N 个线程/字将访问 syn0 和 syn1neg 中的顺序数据，但下一组 N 个线程可能会访问位于内存中很远的顺序数据。

在负采样循环中，需要进行归约操作。该变量f是点积的总和。问题是我打算存储neu1在每个线程的私有内存中，而syn1neg在全局内存中。

负采样是否需要单独的内核？看起来它需要一种与仅启动 N 个线程/单词不同的方法，但我不确定哪种方法最有效。

除了这些问题，请提出我处理此代码的方式是否存在问题。

cuda parallel-processing opencl gpgpu word2vec

2015-07-31T15:46:02.927

0 投票

2 回答

5467 浏览

python - 如何通过word2vec获取反义词？

我目前正在使用 Python 中的 gensim 研究 word2vec 模型，并想编写一个函数来帮助我找到给定单词的反义词和同义词。例如： antonym("sad")="happy" synonym("upset")="enraged"

有没有办法在 word2vec 中做到这一点？

python gensim word2vec

2015-08-04T16:42:17.993

0 投票

1 回答

614 浏览

gensim - 将 Doc2Vec 句子组合成段落向量

在 Gensim 的 Doc2Vec 中，如何结合句子向量来为段落制作单个向量？我意识到你可以训练整个段落，但显然训练单个句子、上下文等会更好。（我认为......？）

有什么建议或正常用例吗？

另外，我将如何从模型中检索句子/段落向量？

gensim word2vec

2015-08-05T08:47:26.663

0 投票

1 回答

134 浏览

python - 如何从保存的矢量文本文件中获取矢量？

我已经Word2vec在 Python 中训练了模型，并将所有这些单词对应的向量（大小 = 300）保存在vec.txt文件中，现在如果我得到一个单词，我需要获取相应的向量并为那些做一些 aclatue向量。但我不知道如何从 txt 文件中获取这些向量。
以下是部分内容vec.txt：

new -0.000113 0.000211 -0.000170 0.000346 -0.000251 -0.001012 0.001647 -0.001331 0.001267 0.000876 0.001243 -0.000600 -0.000667 -0.001241 0.001204 -0.000726 -0.001023 0.001476 -0.001380 0.000065 0.000145 0.001451 0.001275 0.001482 -0.001011 0.001131 0.001095 -0.001637 0.000289 -0.000846 0.001599 -0.001027 -0.000768 -0.000595 0.000825 0.000639 -0.001097 -0.001654 -0.000977 -0.000351 0.001410 0.001182 0.000318 -0.000454 -0.000622 0.000343 0.000508 -0.000258 0.001347 0.000362 0.000372 -0.000208 0.000896 0.001408 0.001412 -0.001566 0.001642 -0.000865 -0.000656 0.001095 -0.001503 -0.000483 0.000465 0.001352 0.000602 -0.000017 0.000011 0.001219 0.001363 0.001296 -0.000474 0.000718 -0.000544 0.000779 -0.001225 -0.001141 -0.001061 -0.000550 0.001446 0.000735 0.000735 0.00001267 0.001269 0.001269 0.00111501501501501501564-0.000.000.000.000.000.000.00.00.00.00.00.00.00.00.00.00. 00. 00. 00. 00. 00. 00. 00. 00. 00. 00. 00. 00py. 00.00气000734 -0.000344 0.000376 -0.001550 0.001241 0.000294 0.000207 -0.001420 0.000297 0.001122 0.000834 -0.001423 -0.001499 0.001060 0.000898 0.001609 -0.000512 -0.001185 -0.001648 0.001328 0.001620 0.001344 0.000160 0.000567 -0.001665 -0.000246 -0.000274 0.001234 0.000659 0.000144 -0.001370 0.001457 -0.000025 0.001117 0.000249 0.000137 - 0.000048 -0.000527 -0.000428 0.000305 -0.001058 0.001374 0.000369 0.001588 0.000085 0.000749 -0.001584 0.000918 -0.001196 0.000424 0.000651 -0.001387 0.000815 -0.000959 0.001261 -0.001246 0.000258 -0.000887 0.001583 0.000102 -0.001337 0.000428 -0.000004 0.000131 0.000487 -0.001659 0.000093 0.001464 0.000356 -0.001479 -0.001217 - 0.000626 0.001019 0.001179 -0.000599 0.000825 0.000858 -0.000841 0.000399 -0.001587 -0.000923 -0.000496 -0.000668 0.000567 0.001308 0.001042 -0.000676 0.001292 -0.001345 0.000113 0.000021 -0.000577 0.000292 0.001052 -0.001646 -0.001186 0.000184 0.000747 -0.001190 -0.001472 0.000535 0.000199 0.000522 -0.000229 -0.000277 -0.000136 0.001568 -0.000509 -0.000065 0.000305 0.001245 -0.001371 -0.001378 -0.000742 0.000411 -0.000461 0.001547 0.001272 0.001339 0.000181 -0.001335 0.000257 -0.000001 0.001494 -0.001379 -0.000635 -0.001195 -0.001483 0.000744 -0.000203 0.000407 -0.000061 -0.001561 0.000239 0.000370 0.000227 -0.000043 -0.001377 -0.000961 -0.001038 0.001575 0.000618 0.000218 0.001260 0.000971 0.000572 0.001307 0.000362 -0.000844 -0.000281 0.000440 -0.001122 0.000097 0.001392 0.000427 0.000913 -0.000537 -0.000889 0.000799 - 0.001422 0.001501 0.001130 -0.000633 -0.000747 0.001198 0.000235 0.001335 0.000273 -0.000906 -0.000551 0.000527 0.000900 -0.001294 0.000451 -0.001180 -0.001376 0.000287 0.001508 0.000068 0.000225 0.000504 0.000137 -0.001071 -0.001383 0.001414 -0.000946 0.001358 -0.001146 -0.000623 0.000656 0.001605 0.000519 0.000106 0.001341 -0.000560 -0.001359 0.000721 0.001653 -0.000643 0.000625 0.000133 -0.000321 0.001230 0.000046 -0.001030 0.000752 0.000108 0.001263 0.000562 0.001224

如果我得到“新”，我需要从vec.txt文件中获取 300 个对应的新向量。

python vector word2vec

user5168808

2015-08-06T08:06:21.860

0 投票

4 回答

4183 浏览

python - Gensim 需要 C 编译器吗？

抱歉，我没有足够的声誉来发布图片。

主要问题是它告诉我需要安装 C 编译器并重新安装 gensim 否则火车会很慢，实际上它真的很慢。

我已经安装了 mingw32、Visual Studio 2008，并将 mingw32 环境变量添加到我的路径中。

关于如何解决它的任何想法？

python compilation word2vec

2015-08-07T06:23:30.307

0 投票

1 回答

1213 浏览

python - Apache Spark - 特征提取 Word2Vec 示例和异常

A. 以下是我的配置：

操作系统：Windows 7

Spark 版本：1.4.1（问题也出现在 1.4.0 中）

语言：Python 和 Scala 都有

B. 示例源代码：

C.Following 是堆栈跟踪：

有什么线索吗？

此致，

维沙尔

python scala exception apache-spark word2vec

2015-08-15T19:51:09.067

0 投票

3 回答

27993 浏览

python - Error while loading Word2Vec model in gensim

I'm getting an AttributeError while loading the gensim model available at word2vec repository:

Is this a known issue ?

python gensim word2vec

2015-08-19T17:17:41.107

0 投票

1 回答

71 浏览

gensim - word2vec 的概率输出

我是 word2vec 世界的新手，我刚刚开始使用 gensim 的 word2vec 实现。

我使用两个天真的句子作为我的第一个文档集，

我得到的向量是这样的：

但是，当我输入另一个玩具文档集时：

我得到以下结果：

同样，我是 word2vec 的新手，但根据我的理解，我的两个文档集在结构上是相同的，因此相应单词的结果应该是相同的。但为什么我得到不同的结果？算法总是给出概率输出还是文档集太小？

我使用的功能如下：

gensim word2vec

2015-08-23T18:52:04.983

问题标签 [word2vec]

Reference