问题标签 [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
607 浏览

nlp - 将 word2vec 偏向特殊语料库

我是stackoverflow的新手。请原谅我糟糕的英语。

我正在将word2vec用于学校项目。我想使用特定领域的语料库(如物理教科书)来使用Word2Vec创建词向量。由于语料库的规模较小,这个独立的并不能提供好的结果。当我们想要评估很可能超出教科书词汇量的单词时,这尤其有害。

我们希望教科书对特定领域的关系和语义“接近度”进行编码。“量子”和“海森堡”在这本教科书中特别接近,例如。这可能不适用于背景语料库。为了处理通用词(如“any”),我们需要基本的背景模型(如 Google 在 word2vec 网站上提供的模型)。

有什么方法可以使用我们的新语料库来代替背景模型。仅对语料库等进行培训效果不佳。

是否有任何尝试将来自两个语料库的向量表示结合起来——一般语料库和特定语料库。我在搜索中找不到任何内容。

0 投票
2 回答
2840 浏览

nlp - word2vec 中的命令行参数

我想使用 word2vec 来创建我自己的带有当前版本的英语维基百科的词向量语料库,但我找不到使用该程序的命令行参数的解释。在 demp 脚本中,您可以找到以下内容:
(text8 是 2006 年的旧维基百科语料库)

命令行参数是什么意思:
vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

当我有大约 20GB(.txt 文件)的维基百科文本语料库时,最合适的值是什么?我读到对于更大的语料库,300 或 500 的向量大小会更好。

0 投票
1 回答
81 浏览

nlp - Are word-vector orientations universal?

I have recently been experimenting with Word2Vec and I noticed whilst trawling through forums that a lot of other people are also creating their own vectors from their own databases.

This has made me curious as to how vectors look across databases and whether vectors take a universal orientation?

I understand that the vectors are created as a result of the context they are found in the corpus. So in that sense perhaps you wouldn't expect words to have the same orientation across databases. However, if the language of the documents are constant, then the contexts should be at least somewhat similar across different databases (excluding ambiguous words like bank (for money) and (river) bank). And if they are somewhat similar, it seems plausible that as we look at more commonly occurring words their direction may converge?

0 投票
5 回答
32799 浏览

vector - 如何将句子或文档转换为向量?

我们有将单词转换为向量的模型(例如 word2vec 模型)。是否存在将句子/文档转换为向量的类似模型,可能使用为单个单词学习的向量?

0 投票
1 回答
1037 浏览

semantic-analysis - 语义匹配字符串 - 使用 word2vec 还是 s-match?

我有一个匹配两个字符串的问题,即“更一般”、“不太一般”、“相同含义”、“相反含义”等。

字符串可以来自任何域。假设字符串可以来自人们的电子邮件。

举个例子,

在这里我应该知道《盗梦空间》不如电影一般(有点像关系)

在这里我应该知道,盗梦空间不如克里斯托弗诺兰一般

乍一看,在我看来 S-match 可以完成这项工作。但我不确定 S-match 是否可以用于 WordNet 或 GeoWordNet 以外的知识库(如他们的页面中所述)。

如果我使用word2vecor dl4j,我想它可以给我相似度分数。但它是否也支持告诉一个字符串是more generalless general不是另一个?

但我确实看到 word2vec 可以基于训练集或维基百科等大型语料库。

有人可以在前进的路上照亮吗?

0 投票
2 回答
2466 浏览

python - 如何在图像上应用 word2vec?

我一直在研究 Google 的 word2vec 模型。我能够为文本词语料库生成最大 300 维的向量。这是一个非常令人印象深刻的工具,并且在大数据上的准确性更进一步。

我很好奇,有什么方法可以使用 word2vec 在灰度图像上生成向量。我确信方法是相同的,您根据像素强度生成向量,然后计算余弦相似度。

我正在尝试建立一个模型来计算灰度图像上的相似距离。除了适用于文本的 word2vec 或 glove 之外,任何库都能够做到这一点?

0 投票
2 回答
814 浏览

python - 使用 gensim 的 Word2vec 训练在 10 万个句子后开始交换

我正在尝试使用大约 170K 行的文件来训练 word2vec 模型,每行一个句子。

我想我可能代表一个特殊的用例,因为“句子”有任意字符串而不是字典单词。每个句子(行)大约有 100 个单词,每个“单词”大约有 20 个字符,包括字符"/"和数字。

训练代码很简单:

事情是,事情真的很快,最多 10 万个句子(我的 RAM 稳步上升),但后来我的 RAM 用完了,我可以看到我的 PC 已经开始交换,并且训练停止了。我没有很多可用的 RAM,只有大约 4GB,word2vec并且在开始交换之前用完了所有内存。

我认为我已将 OpenBLAS 正确链接到 numpy:这就是numpy.show_config()告诉我的:

我的问题是:这在没有大量可用 RAM 的机器(如我的)上是预期的,我应该获得更多的 RAM 或以更小的部分训练模型吗?还是看起来我的设置配置不正确(或者我的代码效率低下)?

先感谢您。

0 投票
1 回答
2355 浏览

python-2.7 - 加载 freebase-skipgram 模型时 Word2vec 中的内存错误

我正在尝试使用 word2vec 并使用 freebase skip gram 模型。但由于内存错误,我无法加载模型。

这是相同的代码片段:

我收到以下错误:

但同样的事情也适用于使用以下代码的谷歌新闻:

我无法理解为什么。是不是 freebase 比 google news 需要更多的内存?我觉得不应该这样。我在这里错过了什么吗?

0 投票
1 回答
1500 浏览

python-3.x - Python34 word2vec.Word2Vec OverFlowError

我正在研究 word2vec,但是当我使用 word2vec 训练文本数据时,使用 Numpy 会发生 OverFlowError。

消息是,

你能告诉我这些案例吗?

我的机器是 x64,操作系统是 windows 7,但 python34 是 32 位的。numpy 和 scipy 也是 32 位的。

0 投票
1 回答
2086 浏览

nlp - word2vec:如何预测最有可能的单词和句子?

Google 的 Word2vec 已被证明在 NLP 任务中非常强大。我对这个工具很陌生,不清楚它到底能做什么。

假设我们有一句话:“我这个周末要去纽约。”

基于这句话,我们有很多选择来改造它。例如:

1)“这个周末我要和爸爸去纽约。”

2)“这个周末我要去洛杉矶。”

3)“这个周末我不去纽约了。”

我想从 word2vec 得到的是,给定基本句子,我如何预测它的转换之一是最有可能的转换?或者,给定一个转换,我们可以计算基本句子之上的概率。

一个额外的问题是,除了 word2vec,还有其他工具可以达到同样的目的吗?