2

我是stackoverflow的新手。请原谅我糟糕的英语。

我正在将word2vec用于学校项目。我想使用特定领域的语料库(如物理教科书)来使用Word2Vec创建词向量。由于语料库的规模较小,这个独立的并不能提供好的结果。当我们想要评估很可能超出教科书词汇量的单词时,这尤其有害。

我们希望教科书对特定领域的关系和语义“接近度”进行编码。“量子”和“海森堡”在这本教科书中特别接近,例如。这可能不适用于背景语料库。为了处理通用词(如“any”),我们需要基本的背景模型(如 Google 在 word2vec 网站上提供的模型)。

有什么方法可以使用我们的新语料库来代替背景模型。仅对语料库等进行培训效果不佳。

是否有任何尝试将来自两个语料库的向量表示结合起来——一般语料库和特定语料库。我在搜索中找不到任何内容。

4

1 回答 1

0

让我们谈谈,gensim因为你用它标记了你的问题。您可以使用 gensim 在 python 中加载先前训练的模型。然后你继续训练它。会有用吗?

# load from previous gensim file:
model = gensim.models.Word2Vec.load(fname)
# or from word2vec c format:
# model = gensim.models.Word2Vec.load_word2vec_format('/path/vectors.bin', binary=True)

# continue training:
model.train(other_sentences)
model.save(fname)
于 2015-06-05T14:53:48.630 回答