nlp - 从子词令牌编码中获取词级编码

Question

我正在研究使用预训练的 BERT（'bert-base-uncased'）模型从一堆句子中提取上下文化的单词级编码。

Wordpiece 标记化将我输入中的一些单词分解为子单词单元。可能是一个微不足道的问题，但我想知道将子字标记的输出编码组合成字级编码的最明智的方法是什么。

平均子字编码是一种合理的方法吗？如果没有，有没有更好的选择？

score 1 · Accepted Answer

直观地说，您的问题似乎类似于“如何获得良好的句子表示”，除了现在您还可以使用句子的分类标记来在大多数基于转换器的模型中获得句子表示。但是，此类令牌不适用于令牌级表示。

在您的情况下，我认为有几个选项，但据我所见，人们最常使用平均值或最大值。换句话说：取子词单元的平均值，或取最大值。在我看来，平均是最直观的起点。

请注意，平均值只是一个序列的平均值。这意味着它不是超级准确（一个高值和一个低值将与两个中等值具有相同的平均值），但它可能是最直接的。

1 回答 1