我不确定这是否是提交此类问题的最佳地点,也许 CrossValdation 会更好。
我正在研究一个文本多类分类问题。我基于在 PyTorch(huggingface 转换器库)中实现的 BERT 概念构建了一个模型。该模型表现得非常好,除非输入句子有 OCR 错误或拼写错误。
例如,如果输入是“NALIBU DRINK”,Bert 分词器会生成 ['na', '##lib', '##u', 'drink'] 并且模型的预测是完全错误的。另一方面,如果我纠正了第一个字符,所以我的输入是“MALIBU DRINK”,Bert 分词器会生成两个令牌 ['malibu', 'drink'],并且模型会以非常高的置信度做出正确的预测。
有什么方法可以增强 Bert tokenizer 以使其能够处理拼写错误的单词?