0

是否有任何预训练的 word2vec 模型,其数据包含单个单词或多个合并在一起的单词,例如“drama”、“drama_film”或“africanamericancommunity”。是否有任何这样的模型经过大量数据集训练,例如为 gloVE 训练的数据集?

4

1 回答 1

2

我在谷歌上进行了快速搜索,但不幸的是我找不到预训练的模型。训练您自己的模型来检测短语的一种方法是使用二元模型。所以,你可以拿一个大的维基百科转储,例如,预处理使用二元组并训练 word2vec 模型。一个可以帮助您实现这一目标的好 github 项目是https://github.com/KeepFloyding/wikiNLPpy 关于该主题的一篇不错的文章:https ://towardsdatascience.com/word2vec-for-phrases-learning-embeddings-for-多于一个词 727b6cf723cf

google pre-trained word2vec中所述,google 的预训练模型已经包含一些短语(bigrams)。

于 2019-12-16T23:39:27.957 回答