您好,我有一些 word2vec 模型使用 DL4J 中的 Word2Vec java 实现生成并通过调用保存
writeWord2VecModel(Word2Vec vectors, String path)
其输出是一个包含一堆 txt 文件的 zip 文件。我可以使用 DL4j 成功加载和使用模型
Word2Vec readWord2VecModel(String path)
我现在正在尝试在 python 中读取该模型,使用gensim
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('file_path, binary=False)
但我收到以下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe0 in position 10: invalid continuation byte
我也尝试使用 binary=True 并得到相同的结果。
如果我提取 DL4J 生成的模型,我会得到以下文件:
有没有办法在 python 中读取该模型genism
?