我的问题涉及对模型的正确培训,以实现 Word2Vec 模型的独特和真正具体的使用。在此处查看 Word2Vec 详细信息
我正在努力识别词嵌入中的名词形容词(或)关系。
(例如,我们在数据集的一个句子中有“nice car”。鉴于语料库的词嵌入以及所有标记的名词和形容词,我正在尝试设计一种技术来找到将“nice”与'车'。)
当然,我并不想只连接那对单词,但该技术应该适用于所有关系。此时采用有监督的方法,然后尝试设计一种无监督的方法。
既然您了解了我要做什么,我将解释这个问题。我显然知道 word2vec 需要在大量数据上进行训练,才能尽可能准确地学习正确的嵌入,但我害怕给它提供比带有标记句子的数据集 (500-700) 更多的数据。
我担心如果我给它更多的数据来训练(例如最新的维基百科转储数据集),它会学习更好的向量,但是额外的数据会影响我的单词的定位,那么这个单词关系就会被额外的训练数据。(例如,如果额外的训练数据中还有“nice Apple”,那么“nice”这个词的定位可能会受到影响)。
希望这是有道理的,我并没有做出错误的假设,但我只是因为没有足够的训练数据,或者有很好的向量,但在词嵌入中的向量定位受损而陷入了困境。
什么是正确的训练方法?尽可能多的训练数据(数十亿字)还是只标记数据集(500-700 个句子)?
感谢您抽出宝贵时间,如果我解释的任何内容没有意义,请告诉我。