用例:句子相似度
不在词汇表中的词被模型解构并分解为子词和单字符标记。
问题
- 这会以任何方式影响模型的准确性吗?
- 添加新词汇是否对模型有任何帮助(优势)?
- 还有其他缺点吗?
有人可以解释一下吗?谢谢
例子
tokenizer.tokenize('hello, HELLO', 'Hello')
output:
['▁hell', 'o', ',', '▁H', 'ELLO', '▁Hello'] ```
用例:句子相似度
不在词汇表中的词被模型解构并分解为子词和单字符标记。
问题
有人可以解释一下吗?谢谢
例子
tokenizer.tokenize('hello, HELLO', 'Hello')
output:
['▁hell', 'o', ',', '▁H', 'ELLO', '▁Hello'] ```