给定一个情绪分类数据集,我想微调 Bert。
如您所知,BERT 创建的目的是在给定当前句子的情况下预测下一个句子。因此,为了让网络意识到这一点,他们[CLS]
在第一句的开头插入了一个标记,然后他们添加[SEP]
了一个标记以将第一句与第二句分开,最后在第二句的末尾添加另一个标记[SEP]
(我不清楚为什么他们在最后附加了另一个令牌)。
无论如何,对于文本分类,我在一些在线示例中注意到(参见带有 Tensorflow hub 的 Keras 中的 BERT),它们添加[CLS]
了标记,然后是句子,最后是另一个[SEP]
标记。
在其他研究工作中(例如,使用实体信息丰富预训练语言模型以进行关系分类),他们删除了最后一个[SEP]
标记。
[SEP]
当我的任务仅使用单个句子时,为什么在输入文本的末尾添加标记是/没有好处?