我想使用 word2vec 来创建我自己的带有当前版本的英语维基百科的词向量语料库,但我找不到使用该程序的命令行参数的解释。在 demp 脚本中,您可以找到以下内容:
(text8 是 2006 年的旧维基百科语料库)
make
if [ ! -e text8 ]; then
wget http://mattmahoney.net/dc/text8.zip -O text8.gz
gzip -d text8.gz -f
fi
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin
命令行参数是什么意思:
vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
当我有大约 20GB(.txt 文件)的维基百科文本语料库时,最合适的值是什么?我读到对于更大的语料库,300 或 500 的向量大小会更好。