word2vec - 是否有任何能够检测短语的预训练 word2vec 模型

问问题 2019-12-16T23:28:59.690

288 次

0

是否有任何预训练的 word2vec 模型，其数据包含单个单词或多个合并在一起的单词，例如“drama”、“drama_film”或“africanamericancommunity”。是否有任何这样的模型经过大量数据集训练，例如为 gloVE 训练的数据集？

1 回答 1

2

我在谷歌上进行了快速搜索，但不幸的是我找不到预训练的模型。训练您自己的模型来检测短语的一种方法是使用二元模型。所以，你可以拿一个大的维基百科转储，例如，预处理使用二元组并训练 word2vec 模型。一个可以帮助您实现这一目标的好 github 项目是https://github.com/KeepFloyding/wikiNLPpy 关于该主题的一篇不错的文章：https ://towardsdatascience.com/word2vec-for-phrases-learning-embeddings-for-多于一个词 727b6cf723cf

如google pre-trained word2vec中所述，google 的预训练模型已经包含一些短语（bigrams）。

于 2019-12-16T23:39:27.957 回答