我是stackoverflow的新手。请原谅我糟糕的英语。
我正在将word2vec用于学校项目。我想使用特定领域的语料库(如物理教科书)来使用Word2Vec创建词向量。由于语料库的规模较小,这个独立的并不能提供好的结果。当我们想要评估很可能超出教科书词汇量的单词时,这尤其有害。
我们希望教科书对特定领域的关系和语义“接近度”进行编码。“量子”和“海森堡”在这本教科书中特别接近,例如。这可能不适用于背景语料库。为了处理通用词(如“any”),我们需要基本的背景模型(如 Google 在 word2vec 网站上提供的模型)。
有什么方法可以使用我们的新语料库来代替背景模型。仅对语料库等进行培训效果不佳。
是否有任何尝试将来自两个语料库的向量表示结合起来——一般语料库和特定语料库。我在搜索中找不到任何内容。