neural-network - 将新词向量嵌入添加到神经网络的现有嵌入空间有什么影响

Question

在 Word2Vector 中，词嵌入是使用共现和更新向量的维度来学习的，以便在彼此的上下文中出现的词更接近。

我的问题如下：

1）如果你已经有一组预训练的嵌入，假设一个 100 维空间有 40k 个单词，你可以在这个嵌入空间中添加 10 个额外的单词而不改变现有的单词嵌入。因此，您只会使用现有的词嵌入来更新新词的维度。我正在考虑关于“单词 2 向量”算法的这个问题，但是如果人们对 GLoVe 嵌入在这种情况下如何工作有见解，我仍然非常感兴趣。

2）问题的第2部分是；然后，您能否在使用先前嵌入集训练的 NN 中使用新词嵌入并期望得到合理的结果。例如，如果我训练了一个用于情感分析的神经网络，而“紧张”这个词以前不在词汇表中，那么“紧张”会被正确分类为“负面”。

这是一个关于 NN 对嵌入有多敏感（或鲁棒）的问题。我很感激任何想法/见解/指导。

score 2 · Accepted Answer

最初的训练使用关于已知单词的信息将它们绘制在有用的 N 维空间中。

当然，理论上可以使用关于新词的新信息，也可以在同一空间中给它们坐标。你会想要很多新词与旧词一起使用的不同例子。

无论您是想冻结旧词的位置，还是让它们也根据新示例漂移到新位置，都可能是一个重要的选择。如果您已经使用旧词训练了一个预先存在的分类器（如情感分类器），并且不想重新训练该分类器，您可能希望将旧词锁定到位，并强制新词到兼容的位置（即使较新的组合文本示例会改变旧词的相对位置）。

由于在对新词进行有效训练后，它们通常应该接近具有相似含义的旧词，因此可以合理地期望对旧词起作用的分类器仍然对新词做一些有用的事情。但它的效果如何取决于很多事情，包括原始词集覆盖所有可概括的意义“邻域”的程度。（如果新词带来了旧词中没有例子的含义阴影，那么坐标空间的那个区域可能会变得贫乏，并且分类器可能从来没有很好的区分例子，因此性能可能会滞后.)

neural-network - 将新词向量嵌入添加到神经网络的现有嵌入空间有什么影响

1 回答 1

Related

Reference