10

具有大量参数的 ML 模型往往会过拟合(因为它们具有很大的方差)。在我看来,word2vec就是这样一种模式。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说是非常常见的。但是,基本版本word2vec没有任何正则化部分。是否有一个原因?

4

1 回答 1

6

这是一个有趣的问题。

我会说Word2Vec中的过度拟合没有多大意义,因为词嵌入的目标是尽可能精确地匹配词的出现分布。Word2Vec 并非旨在学习训练词汇之外的任何内容,即泛化,而是近似于文本语料库定义的一个分布。从这个意义上说,Word2Vec 实际上是在尝试精确拟合,因此不能过度拟合。

如果您的词汇量很小,则可以计算共现矩阵并找到嵌入(给定大小)的确切全局最小值,即获得完美拟合,这将定义最佳上下文词模型对于这种固定的语言。

于 2018-01-15T15:59:55.137 回答