vector - 如何为特殊目的正确训练 Word2Vec 模型

Question

我的问题涉及对模型的正确培训，以实现 Word2Vec 模型的独特和真正具体的使用。在此处查看 Word2Vec 详细信息

我正在努力识别词嵌入中的名词形容词（或）关系。

（例如，我们在数据集的一个句子中有“nice car”。鉴于语料库的词嵌入以及所有标记的名词和形容词，我正在尝试设计一种技术来找到将“nice”与'车'。）

当然，我并不想只连接那对单词，但该技术应该适用于所有关系。此时采用有监督的方法，然后尝试设计一种无监督的方法。

既然您了解了我要做什么，我将解释这个问题。我显然知道 word2vec 需要在大量数据上进行训练，才能尽可能准确地学习正确的嵌入，但我害怕给它提供比带有标记句子的数据集 (500-700) 更多的数据。

我担心如果我给它更多的数据来训练（例如最新的维基百科转储数据集），它会学习更好的向量，但是额外的数据会影响我的单词的定位，那么这个单词关系就会被额外的训练数据。（例如，如果额外的训练数据中还有“nice Apple”，那么“nice”这个词的定位可能会受到影响）。

希望这是有道理的，我并没有做出错误的假设，但我只是因为没有足够的训练数据，或者有很好的向量，但在词嵌入中的向量定位受损而陷入了困境。

什么是正确的训练方法？尽可能多的训练数据（数十亿字）还是只标记数据集（500-700 个句子）？

感谢您抽出宝贵时间，如果我解释的任何内容没有意义，请告诉我。

score 1 · Accepted Answer

与往常一样，在类似情况下，最好检查...

我想知道您是否测试了标记数据集结果与维基百科数据集的训练差异。真的有你害怕看到的问题吗？

我只是进行一个实验并检查两种情况下的向量是否确实不同（从统计学上讲）。

我怀疑您可能会在更大的语料库中引入一些噪音，但更多的数据可能是有益的。词汇覆盖（更大的语料库 - 更普遍）。这完全取决于您的预期用例。这很可能是在召回率非常低的高精度与召回率相对较好的一般精度之间进行权衡。

1 回答 1