我正在研究一个循环语言模型。为了学习可用于初始化我的语言模型的词嵌入,我使用了 gensim 的 word2vec 模型。训练后,word2vec 模型为词汇表中的每个单词保存两个向量:单词嵌入(输入/隐藏矩阵的行)和上下文嵌入(隐藏/输出矩阵的列)。
如本文所述,至少有三种常用方法可以组合这两个嵌入向量:
- 对每个单词的上下文和单词向量求和
- 求和平均
- 连接上下文和词向量
但是,我找不到有关最佳策略的适当论文或报告。所以我的问题是:
- 是否存在对向量求和、平均或连接的通用解决方案?
- 还是最好的方法完全取决于所讨论的任务?如果是这样,什么策略最适合单词级语言模型?
- 为什么要结合向量呢?为什么不对每个词使用“原始”词嵌入,即包含在输入和隐藏神经元之间的权重矩阵中的那些。
相关(但未回答)的问题: