0

使用 BPE 或 WordPiece 可能有多种方法可以对单词进行编码。例如,假设(为简单起见)令牌词汇表包含所有字母以及合并的符号(“to”、“ke”、“en”)。那么单词“token”可以编码为(“to”,“ke”,“n”)或(“to”,“k”,“en”)。本教程中也提到了这种模棱两可的编码https://blog.floydhub.com/tokenization-nlp/

但是,在 hugginface 教程中提到“BPE 和 WordPiece [...] 以特定顺序制定规则,然后您可以在标记新文本时以相同顺序应用”,请参阅https://huggingface.co/变压器/master/tokenizer_summary.html

在使用 BPE/WordPiece 时,这些规则是如何存储和应用的,例如,在我上面的示例中,它是如何确定要使用哪个标记化的?

4

1 回答 1

0

在 BPE 的解析步骤中,合并顺序很重要。例如,如果合并顺序是

(p, e), (pe, n), (pen, _), (a, p), (ap, p), (app, l), (appl, e), (apple, _), (pen, apple_)

Applepen PenapplePen应该分割成这样:[a, p, p, l, e, pe, pen, a, p, p, l, e, pen],给定k = 2。我们只是(p, e), (pe, n)用于解析。由于合并顺序是固定的,因此对于任何 k 的测试数据,结果应该是固定的。您只需在解析步骤中使用前 k 个合并。

详情请参考对问题的回答:Explain bpe (Byte Pair Encoding) with examples?

于 2021-08-02T15:29:58.760 回答