nlp - 模型解构的单词（分成多个标记）会影响准确性吗？

翻译自：https://stackoverflow.com/questions/70622153 2022-01-07T13:45:12.580

15 次

用例：句子相似度

不在词汇表中的词被模型解构并分解为子词和单字符标记。

问题

有人可以解释一下吗？谢谢

例子

tokenizer.tokenize('hello, HELLO', 'Hello')
output:
['▁hell', 'o', ',', '▁H', 'ELLO', '▁Hello'] ```

0 回答 0