使用 BPE 或 WordPiece 可能有多种方法可以对单词进行编码。例如,假设(为简单起见)令牌词汇表包含所有字母以及合并的符号(“to”、“ke”、“en”)。那么单词“token”可以编码为(“to”,“ke”,“n”)或(“to”,“k”,“en”)。本教程中也提到了这种模棱两可的编码https://blog.floydhub.com/tokenization-nlp/
但是,在 hugginface 教程中提到“BPE 和 WordPiece [...] 以特定顺序制定规则,然后您可以在标记新文本时以相同顺序应用”,请参阅https://huggingface.co/变压器/master/tokenizer_summary.html。
在使用 BPE/WordPiece 时,这些规则是如何存储和应用的,例如,在我上面的示例中,它是如何确定要使用哪个标记化的?