问题标签 [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
73556 浏览

python - Doc2vec:如何获取文档向量

如何使用 Doc2vec 获取两个文本文档的文档向量?我是新手,所以如果有人能指出我正确的方向/帮助我提供一些教程,那将会很有帮助

我正在使用gensim。

我明白了

AttributeError:“列表”对象没有属性“单词”

每当我运行这个。

0 投票
1 回答
983 浏览

python - 使用 Gensim 处理西班牙语维基百科

我想使用gensim.corpora.wikicorpus. 我的最终目标是从中训练一个Word2Vec模型。

我有它的工作,但我对西班牙语的重音元音有疑问:á,é,í,ó,ú。

我想将它们标准化为 a, e, i, o, u。

我似乎在 gensim 中有一个deaccent函数,但我想在构建语料库时直接应用它。这可以做到吗?

这是一个工作示例:

0 投票
2 回答
1103 浏览

python - 使用语义词表示(例如 word2vec)构建分类器

我想为论坛帖子构建一个分类器,该分类器将通过使用语义词表示自动将这些帖子分类为一些定义的类别(因此多类分类不仅仅是二进制分类)。对于这个任务,我想利用 word2vec 和 doc2vec 并检查使用这些模型来支持快速选择分类器训练数据的可行性。此刻,我已经尝试了这两种模型,它们的工作方式非常有魅力。但是,由于我不想手动标记每个句子来预测它所描述的内容,我想将此任务留给 word2vec 或 doc2vec 模型。所以,我的问题是:我可以在 Python 中为分类器使用什么算法?(我正在考虑在 word2vec 或 doc2vec 上应用一些聚类 - 手动标记每个聚类(这需要一些时间并且不是最佳解决方案)。以前,我使用了“LinearSVC”(来自 SVM)和 OneVsRestClassifier,但是,我标记了每个句子(通过手动训练向量“y_train”)来预测新的测试句子属于哪个类。对于这种类型的分类器(利用语义词表示来训练数据),python 中的一个好的算法和方法是什么?

0 投票
0 回答
100 浏览

gensim - 将单词与文档进行比较

据我所知,doc2vec 计算文档和单词的嵌入。我可以使用单词向量和文档向量来估计单词与文档的相似度,还是仅使用文档与文档和单词与单词的相似度?任何评论都会有所帮助。

0 投票
2 回答
10333 浏览

java - 如何在 Java 中实现 Word2Vec?

我在 Ubuntu 笔记本电脑上使用本教程安装了 word2Vec 。为了在 Java 中实现 word2Vec 向量,是否完全有必要安装DL4J ?我很喜欢在 Eclipse 中工作,但我不确定我是否需要 DL4J 想要我安装的所有其他先决条件。

理想情况下,我将有一种非常简单的方法来使用我已经编写的 Java 代码(在 Eclipse 中)并更改几行——这样我正在做的单词查找将检索 word2Vec 向量而不是我正在使用的当前检索过程。


另外,我已经研究过使用 GloVe,但是,我没有 MatLab。是否可以在没有 MatLab 的情况下使用 GloVe?(因为这个,我在安装它时出错了)。如果是这样,与上面相同的问题......我不知道如何在Java中实现它。

0 投票
2 回答
1040 浏览

debugging - CUDA 代码在使用 sm_35 编译时运行,但使用 sm_30 失败

我拥有的 GPU 设备是 GeForce GT 750M,我发现它是计算能力 3.0。我下载了这里找到的 CUDA 代码:( https://github.com/fengChenHPC/word2vec_cbow。它的makefile 有标志-arch=sm_35。

由于我的设备是计算能力 3.0,我将标志更改为 -arch=sm_30。它编译得很好,但是当我运行代码时,出现以下错误:

它多次显示,因为有多个 CPU 线程启动 CUDA 内核。请注意,线程不会使用不同的流来启动内核,因此内核启动都是按顺序进行的。

现在,当我设置标志时,即-arch=sm_35,代码运行良好。有人可以解释为什么当我设置标志以匹配我的设备时代码不会运行吗?

0 投票
7 回答
26124 浏览

machine-learning - 如何使用 Word2Vec 获取单词列表的向量?

我想创建一个本质上是字典的文本文件,每个单词都通过 word2vec 与其矢量表示配对。我假设这个过程是首先训练 word2vec 然后从我的列表中查找每个单词并找到它的表示形式(然后将其保存在一个新的文本文件中)?

我是 word2vec 的新手,我不知道该怎么做。我已经阅读了几个主要站点,以及 Stack 上的几个问题,但还没有找到好的教程。

0 投票
1 回答
8711 浏览

python - 设置 word2vec - KeyError:“单词'word'不在词汇表中”

我尝试使用 word2vec,但在尝试对任何单词执行任何操作时都会出错。这似乎是一个编码问题,这是我所做的:

初始化 word2vec:

稍微测试一下:

错误:

我也尝试用 加载模型binary=False,但这在加载时出错。

0 投票
2 回答
1504 浏览

python - 为什么我无法使用 gensim 重现 word2vec 结果

我无法使用 Gensim 重现 word2vec 结果,并且某些结果没有意义。Gensim 是一个开源工具包,旨在使用高效的在线算法处理大型文本集合,包括Google 的 word2vec 算法的 python 实现

我正在关注在线教程,但无法重现结果。(positive=['woman', 'king'],negative=['man']) 最相似的词应该是 'wenceslaus' 和 'queen'。相反,我得到了 'u'eleonore' 和 'iv'。“快”最相似的是慢,“快”是“mitsumi”。

有什么见解吗?以下是我的代码和结果:

>>> 从 gensim.models 导入 word2vec

>>> 导入日志

>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

>>> 句子 = word2vec.Text8Corpus('\tmp\text8')

>>> 模型 = word2vec.Word2Vec(sentences, size=200)

>>> model.most_similar(positive=['woman', 'king'],negative=['man'], topn=2)

out[63]: [(u'eleonore', 0.5138808...), (u'iv',0.510519325...)]

>>> model.most_similar(positive=['fast'])

Out[64]: [(u'slow', 0.48932...), (u'paced', 0.46925...)...]

>>> model.most_similar(positive=['quick'],topn=1)

出 [65]: [(u'mitsumi', 0.48545..)]

0 投票
1 回答
5981 浏览

python - Gensim Word2vec:语义相似度

我想知道 gensim word2vec 的两个相似性度量之间的区别:most_similar() 和 most_similar_cosmul()。我知道第一个使用词向量的余弦相似度,而另一个使用 Omer Levy 和 Yoav Goldberg 提出的乘法组合目标。我想知道它如何影响结果?哪一个给出语义相似性?等等例如:

结果:[('女王',0.50882536),...]

结果:[(u'iraq', 0.8488819003105164), ...]