3

我看到了这些幻灯片,Kim 关于 CNN 使用 word2vec 的介绍: http ://www.people.fas.harvard.edu/~yoonkim/data/Kim_EMNLP_2014_slides.pdf

在幻灯片 20 上,第四个要点如下:

Words not in word2vec are initialized randomly from U[−a, a] 
where a is chosen such that the unknown words have the
same variance as words already in word2vec.

现在我想知道如何计算“a”以及如何计算完全未知单词的整个向量。

4

1 回答 1

6

根据Mikolov 本人的回答,可以根据不常用词所描述的空间来初始化向量。在他的回答中,他提到您应该平均不常用的单词并以这种方式构建未知标记。

按照这个想法,我认为a指的是不常用词空间的半径。您可以做的是获取不常用词的质心C (通过平均值),计算不常用向量空间Q的直径2*a ,并通过位于Q内的均匀分布的样本生成随机向量u

于 2016-02-20T21:35:12.963 回答