1

我有一个 40 MB 大小的文本数据集,我想训练 Word2Vec 来构建一个模型,该模型可用于在特定域的文档中查找句子或段落之间的相似性。Word2Vec 获得良好结果所需的最小数据集大小应该是多少?

4

1 回答 1

0

对于简单的 CBOW 模型,该算法将观察所有单词对,我们称它们为 (context,target),其中 target 是上下文中可能出现在 +/- X 个单词(窗口大小 = X)中的单词。然后训练神经网络“给定一个上下文词预测一个接近它的词”。所以你应该看到你的文件中有多少个独特的词和词对。从你不能说的文件大小来看,例如英语的维基百科转储是 15 GB。

请查看一些不错的博客以更好地理解算法,一个不错的博客是: http ://blog.aylien.com/overview-word-embeddings-history-word2vec-cbow-glove/

祝你好运!

于 2019-09-02T11:49:49.740 回答