merge - BPE 多种方式对单词进行编码

Question

使用 BPE 或 WordPiece 可能有多种方法可以对单词进行编码。例如，假设（为简单起见）令牌词汇表包含所有字母以及合并的符号（“to”、“ke”、“en”）。那么单词“token”可以编码为（“to”，“ke”，“n”）或（“to”，“k”，“en”）。本教程中也提到了这种模棱两可的编码https://blog.floydhub.com/tokenization-nlp/

但是，在 hugginface 教程中提到“BPE 和 WordPiece [...] 以特定顺序制定规则，然后您可以在标记新文本时以相同顺序应用”，请参阅https://huggingface.co/变压器/master/tokenizer_summary.html。

在使用 BPE/WordPiece 时，这些规则是如何存储和应用的，例如，在我上面的示例中，它是如何确定要使用哪个标记化的？

score 0 · Accepted Answer

在 BPE 的解析步骤中，合并顺序很重要。例如，如果合并顺序是

(p, e), (pe, n), (pen, _), (a, p), (ap, p), (app, l), (appl, e), (apple, _), (pen, apple_)

Applepen PenapplePen应该分割成这样：[a, p, p, l, e, pe, pen, a, p, p, l, e, pen]，给定k = 2。我们只是(p, e), (pe, n)用于解析。由于合并顺序是固定的，因此对于任何 k 的测试数据，结果应该是固定的。您只需在解析步骤中使用前 k 个合并。

详情请参考我对问题的回答：Explain bpe (Byte Pair Encoding) with examples？

merge - BPE 多种方式对单词进行编码

1 回答 1

Related

Reference