我试图遵循这一点。
但是有些我浪费了很多时间却没有任何用处。
我只想GloVe
在我自己的语料库(~900Mb corpus.txt 文件)上训练一个模型。我下载了上面链接中提供的文件并使用cygwin
(编辑 demo.sh 文件并将其更改为VOCAB_FILE=corpus.txt
. 我应该CORPUS=text8
保持不变吗?)对其进行编译,输出为:
- cooccurrence.bin
- cooccurrence.shuf.bin
- 文本8
- 语料库.txt
- 矢量.txt
如何使用这些文件将其作为GloVe
模型加载到 python 上?