我了解 Elmo 在字符上使用 CNN 进行字符嵌入。但是我不明白字符嵌入是如何与高速公路网络中的词嵌入连接的。在 Elmo 论文中,大多数评估都使用 Glove 进行词嵌入和 CNN 字符嵌入,这很有意义,因为他们提到了词嵌入。但是对于像 TF-Hub 中的预训练模型,我们将哪些词嵌入与高速公路层中的字符嵌入连接起来?
如果可以,请帮助我理解。
我了解 Elmo 在字符上使用 CNN 进行字符嵌入。但是我不明白字符嵌入是如何与高速公路网络中的词嵌入连接的。在 Elmo 论文中,大多数评估都使用 Glove 进行词嵌入和 CNN 字符嵌入,这很有意义,因为他们提到了词嵌入。但是对于像 TF-Hub 中的预训练模型,我们将哪些词嵌入与高速公路层中的字符嵌入连接起来?
如果可以,请帮助我理解。
连接发生在https://tfhub.dev/google/elmo/3模型中。使用word_emb
输出时,可以获取输入中每个标记的嵌入。嵌入可用于分类或其他类似于基于 BERT/transformer 的模型的建模任务。lstm_outputs1
该模型还通过和提供对 LSTM 的某些隐藏状态的直接访问lstm_outputs2
。