具有大量参数的 ML 模型往往会过拟合(因为它们具有很大的方差)。在我看来,word2vec
就是这样一种模式。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说是非常常见的。但是,基本版本word2vec
没有任何正则化部分。是否有一个原因?
问问题
1813 次
具有大量参数的 ML 模型往往会过拟合(因为它们具有很大的方差)。在我看来,word2vec
就是这样一种模式。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说是非常常见的。但是,基本版本word2vec
没有任何正则化部分。是否有一个原因?