我正在考虑在网络爬网转储上使用超过 10 TB+ 的大规模数据训练 word2vec。
我在 iMac 上亲自训练了 c 实现 GoogleNews-2012 转储(1.5gb)花了大约 3 个小时来训练和生成向量(对速度印象深刻)。虽然我没有尝试 python 实现:( 我在某处读到,在 300 个向量长度的 wiki 转储(11gb)上生成向量大约需要 9 天才能生成。
如何加速word2vec?我需要使用分布式模型或需要在 2-3 天内完成的硬件类型吗?我有 8gb 内存的 iMac。
哪个更快?Gensim python还是C实现?
我看到 word2vec 实现不支持 GPU 训练。