0

我不确定这是否是提交此类问题的最佳地点,也许 CrossValdation 会更好。

我正在研究一个文本多类分类问题。我基于在 PyTorch(huggingface 转换器库)中实现的 BERT 概念构建了一个模型。该模型表现得非常好,除非输入句子有 OCR 错误或拼写错误。

例如,如果输入是“NALIBU DRINK”,Bert 分词器会生成 ['na', '##lib', '##u', 'drink'] 并且模型的预测是完全错误的。另一方面,如果我纠正了第一个字符,所以我的输入是“MALIBU DRINK”,Bert 分词器会生成两个令牌 ['malibu', 'drink'],并且模型会以非常高的置信度做出正确的预测。

有什么方法可以增强 Bert tokenizer 以使其能够处理拼写错误的单词?

4

1 回答 1

1

您可以利用 BERT 的功能来纠正拼写错误的单词。下面链接的文章通过代码片段精美地解释了该过程 https://www.statestitle.com/resource/using-nlp-bert-to-improve-ocr-accuracy/

总而言之,您可以通过 SpellChecker 功能识别拼写错误的单词并获得替换建议。然后,使用 BERT 找到最合适的替代品。

于 2020-04-06T23:40:00.393 回答