Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 gensim doc2vec。我想知道是否有任何有效的方法可以从 doc2vec 中了解词汇量。一种粗略的方法是计算总字数,但如果数据很大(1GB 或更多),那么这不是一种有效的方法。
doc2vec
如果model是您经过训练的 Doc2Vec 模型,那么在应用您的之后,幸存词汇表中唯一单词标记的数量min_count可从以下位置获得:
model
min_count
len(model.wv.vocab)
训练的文档标签的数量可从以下位置获得:
len(model.docvecs)
vocab 的返回数据类型是字典。使用keys()如下:
model.wv.vocab.keys()
这应该返回一个单词列表。
gensim 版本 4 的更新。您可以通过以下方式获得词汇量:
vocab_len = len(model.wv) #
请参阅此迁移到 Gensim 4.0页面