7

我正在使用 gensim doc2vec。我想知道是否有任何有效的方法可以从 doc2vec 中了解词汇量。一种粗略的方法是计算总字数,但如果数据很大(1GB 或更多),那么这不是一种有效的方法。

4

3 回答 3

12

如果model是您经过训练的 Doc2Vec 模型,那么在应用您的之后,幸存词汇表中唯一单词标记的数量min_count可从以下位置获得:

len(model.wv.vocab)

训练的文档标签的数量可从以下位置获得:

len(model.docvecs)
于 2017-01-19T00:29:46.903 回答
4

vocab 的返回数据类型是字典。使用keys()如下:

model.wv.vocab.keys()

这应该返回一个单词列表。

于 2019-05-07T11:24:24.353 回答
0

gensim 版本 4 的更新。您可以通过以下方式获得词汇量:

vocab_len = len(model.wv)  # 

请参阅此迁移到 Gensim 4.0页面

于 2021-11-20T15:54:39.003 回答