我经常听到与 word2vec 一起使用的术语“负采样”和“子采样”。
在我试图弄乱 word2vec 之前,我试图回顾一下引用词嵌入的论文,并从头开始。纸上的踪迹把我带到了这里:
https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf (谷歌,“向量空间中单词表示的有效估计“如果您不信任链接。)
并指出:
(我熟悉所有要点减去第一个)
我在负采样和二次采样方面发现的唯一内容已包含在有关 word2vec 的文章中,而这正是我要避免的。
如果有人能解释这些术语或指出我正确的方向,将不胜感激:)。
编辑:它本身的子采样标签导致了这个定义:
“二次抽样是一种类似于 bootstrap 的重新抽样过程,其中通过替换绘制的观察结果少于所有观测值(与教科书 bootstrap 方法中使用的原始样本量相比)。要从现有数据中创建样本,请考虑“抽样”而是标记。” ---这方面的具体例子会很棒。