2

我需要从“gensim.models.keyedvectors.Word2VecKeyedVectors”的词汇中删除一个无效单词。

我尝试使用 删除它del model.vocab[word],如果我打印model.vocab单词消失了,但是当我model.most_similar使用其他单词运行时,我删除的单词仍然显示为相似。那么我怎样才能以影响不带它model.vocab的方式删除一个单词呢?model.most_similar

4

2 回答 2

2

没有现有的方法支持删除单个单词。

一个快速而肮脏的解决方法可能是,在删除vocab条目的同时,注意index现有向量(在底层大向量数组中)的存在,并将kv_model.index2entity该索引处的列表中的字符串更改为某个插件值(比如说,'***DELETED***')。

然后,在执行 any 之后most_similar(),丢弃任何匹配的条目'***DELETED***'

于 2019-02-15T18:43:54.403 回答
0

参考:

如何从 gensim 中的 Word2Vec 模型中完全删除一个单词?

  1. 可能的方法1:我通过编辑文本模型文件本身来解决它。
  2. 可能的方法2:参考@zsozso 的回答。(虽然我没看懂

工作)。

于 2019-04-17T02:43:40.400 回答