我计划根据手头的数据(人们输入的笔记)从头开始训练 ELMo 或 Bert 模型。我现在拥有的数据都是由不同的人输入的。句子中存在拼写、格式和不一致的问题。在阅读了 ELMo 和 Bert 论文后,我知道这两个模型都使用了很多类似 Wikipedia 的句子。我找不到任何已处理的训练样本或任何用于 Emlo 或 Bert 模型的预处理教程。我的问题是:
- Bert 和 ELMo 模型是否具有标准数据预处理步骤或标准处理数据格式?
- 根据我现有的脏数据,有什么方法可以预处理这些数据,使生成的单词表示更准确?