在 Word2Vector 中,词嵌入是使用共现和更新向量的维度来学习的,以便在彼此的上下文中出现的词更接近。
我的问题如下:
1)如果你已经有一组预训练的嵌入,假设一个 100 维空间有 40k 个单词,你可以在这个嵌入空间中添加 10 个额外的单词而不改变现有的单词嵌入。因此,您只会使用现有的词嵌入来更新新词的维度。我正在考虑关于“单词 2 向量”算法的这个问题,但是如果人们对 GLoVe 嵌入在这种情况下如何工作有见解,我仍然非常感兴趣。
2)问题的第2部分是;然后,您能否在使用先前嵌入集训练的 NN 中使用新词嵌入并期望得到合理的结果。例如,如果我训练了一个用于情感分析的神经网络,而“紧张”这个词以前不在词汇表中,那么“紧张”会被正确分类为“负面”。
这是一个关于 NN 对嵌入有多敏感(或鲁棒)的问题。我很感激任何想法/见解/指导。