我正在将 Word2Vec 与大约 11,000,000 个标记的数据集一起使用,希望同时进行单词相似性(作为下游任务的同义词提取的一部分),但我不知道我应该在 Word2Vec 中使用多少维度。有没有人根据令牌/句子的数量对要考虑的维度范围有很好的启发式方法?
问问题
16043 次
3 回答
21
典型的间隔在 100-300 之间。我会说您至少需要 50D 才能达到最低精度。如果您选择较少的维度,您将开始失去高维空间的属性。如果训练时间对您的应用程序来说不是什么大问题,我会坚持使用 200D 尺寸,因为它提供了很好的功能。使用 300D 可以获得极高的精度。300D 之后的单词特征不会有显着提升,训练会非常慢。
我不知道高维空间中维度选择的理论解释和严格界限(可能没有独立于应用程序的解释),但我建议您参考Pennington 等人。al,图 2a 其中 x 轴显示矢量维度,y 轴显示获得的精度。这应该为上述论点提供经验依据。
于 2014-10-28T16:07:47.097 回答
0
维度的数量反映了过拟合/欠拟合。100-300维是常识。从一个数字开始,检查测试集与训练集的准确性。维度越大,越容易在训练集上过拟合,在测试中表现不佳。如果您在训练集上的准确率较高而在测试集上的准确率较低,则需要调整此参数,这意味着维度太大,减小它可能会解决模型的过度拟合问题。
于 2018-09-14T03:23:20.520 回答
0
我认为 word2vec 的维数取决于您的应用程序。最经验值是100左右。那么它可以表现良好。
于 2017-08-18T07:43:47.687 回答