0

用例:句子相似度

不在词汇表中的词被模型解构并分解为子词和单字符标记。

问题

  1. 这会以任何方式影响模型的准确性吗?
  2. 添加新词汇是否对模型有任何帮助(优势)?
  3. 还有其他缺点吗?

有人可以解释一下吗?谢谢

例子

tokenizer.tokenize('hello, HELLO', 'Hello')
output:
['▁hell', 'o', ',', '▁H', 'ELLO', '▁Hello'] ```

4

0 回答 0