我正在研究使用预训练的 BERT('bert-base-uncased')模型从一堆句子中提取上下文化的单词级编码。
Wordpiece 标记化将我输入中的一些单词分解为子单词单元。可能是一个微不足道的问题,但我想知道将子字标记的输出编码组合成字级编码的最明智的方法是什么。
平均子字编码是一种合理的方法吗?如果没有,有没有更好的选择?
我正在研究使用预训练的 BERT('bert-base-uncased')模型从一堆句子中提取上下文化的单词级编码。
Wordpiece 标记化将我输入中的一些单词分解为子单词单元。可能是一个微不足道的问题,但我想知道将子字标记的输出编码组合成字级编码的最明智的方法是什么。
平均子字编码是一种合理的方法吗?如果没有,有没有更好的选择?