machine-learning - 为什么 word2vec 不使用正则化？

Question

具有大量参数的 ML 模型往往会过拟合（因为它们具有很大的方差）。在我看来，word2vec就是这样一种模式。减少模型方差的方法之一是应用正则化技术，这对于其他嵌入模型（例如矩阵分解）来说是非常常见的。但是，基本版本word2vec没有任何正则化部分。是否有一个原因？

score 6 · Accepted Answer

这是一个有趣的问题。

我会说Word2Vec中的过度拟合没有多大意义，因为词嵌入的目标是尽可能精确地匹配词的出现分布。Word2Vec 并非旨在学习训练词汇之外的任何内容，即泛化，而是近似于文本语料库定义的一个分布。从这个意义上说，Word2Vec 实际上是在尝试精确拟合，因此不能过度拟合。

如果您的词汇量很小，则可以计算共现矩阵并找到嵌入（给定大小）的确切全局最小值，即获得完美拟合，这将定义最佳上下文词模型对于这种固定的语言。

1 回答 1