1

我经常听到与 word2vec 一起使用的术语“负采样”和“子采样”。

在我试图弄乱 word2vec 之前,我试图回顾一下引用词嵌入的论文,并从头开始。纸上的踪迹把我带到了这里:

https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf (谷歌,“向量空间中单词表示的有效估计“如果您不信任链接。)

并指出:

在此处输入图像描述

(我熟悉所有要点减去第一个)

我在负采样和二次采样方面发现的唯一内容已包含在有关 word2vec 的文章中,而这正是我要避免的。

如果有人能解释这些术语或指出我正确的方向,将不胜感激:)。

编辑:它本身的子采样标签导致了这个定义:

“二次抽样是一种类似于 bootstrap 的重新抽样过程,其中通过替换绘制的观察结果少于所有观测值(与教科书 bootstrap 方法中使用的原始样本量相比)。要从现有数据中创建样本,请考虑“抽样”而是标记。” ---这方面的具体例子会很棒。

4

1 回答 1

2

我终于找到了一些负采样的东西,如果你学习计算机科学,并且知道所有关于“连接点”又名图的知识,这对于任何想要一个具体例子的人来说都是一个非常有用的链接。

https://www.safaribooksonline.com/library/view/mastering-java-for/9781782174271/056ce305-83f2-4efe-993a-b549b7ea3133.xhtml

(或谷歌:“掌握java数据科学负采样”)

对于subsampling,我将把它用于 nlp,所以这是最相关的:

在此处输入图像描述

(取自https://www.safaribooksonline.com/library/view/python-natural-language/9781787121423/f7035ac3-7624-4b80-b464-64ed8a7f252a.xhtml

于 2017-10-05T16:46:44.340 回答