0

在 Gensim word2vec 中是否sample= 0意味着在我的训练期间没有使用下采样?文档就是这么说的

“有用的范围是 (0, 1e-5)”

但是将阈值设置为 0 会导致 P(wi) 等于 1,这意味着不会丢弃任何单词,我是否理解正确?

我正在处理一个包含 7597 个 Facebook 帖子(18945 个单词)的相对较小的数据集,并且我的嵌入sample= 0在推荐范围内的使用效果要好得多。有什么特别的原因吗?字体大小?

4

1 回答 1

2

这似乎是一个非常小的Word2Vec训练数据集。(那是只有 18945 个独特的词,还是总共 18945 个词,所以每个帖子几乎不超过 2 个词?)

采样在较大的数据集上最有用——其中有很多常用词的例子,它们的更多训练例子并没有增加太多——但与其他不太常见的词相比,它们正在从这些词的例子中窃取时间,并过度使用它们.

是的,sample=0意味着没有下采样。

于 2020-03-30T23:00:28.577 回答