在 BERT 预训练中,[CLS] 标记嵌入到分类器的输入中,该分类器的任务是下一个句子预测任务(或者,在某些 BERT 变体中,还有其他任务,例如 ALBERT 的句子顺序预测);这有助于对整个转换器进行预训练,并且还有助于使 [CLS] 位置随时可用于对其他“句子量表”任务进行再训练。
我想知道 [SEP] 是否也可以以同样的方式进行再培训。虽然 [CLS] 可能更容易重新训练,因为 Transformer 已经被训练为在整个句子中赋予其嵌入意义,而 [SEP] 没有这些“连接”(人们会假设),这可能仍然适用于足够的微调。
有了这个,可以为两种不同的分类任务重新训练相同的模型,一种使用 [CLS],另一种使用 [SEP]。
我错过了什么吗?有没有理由为什么这不起作用?