2

我正在使用预训练的 BERT 句子转换器模型,如此处所述https://www.sbert.net/docs/training/overview.html来获取句子的嵌入。

我想微调这些预训练的嵌入,我按照上面链接的教程中的说明进行操作。根据本教程,您可以通过输入句子对和一个标签分数来微调预训练模型,该标签分数表示成对中两个句子之间的相似性分数。我了解这种微调是使用下图所示的架构进行的:

在此处输入图像描述

对中的每个句子首先使用 BERT 模型进行编码,然后“池化”层聚合(通常通过取平均值)由 Bert 层生成的词嵌入,从而为每个句子生成单个嵌入。在最后一步计算两个句子嵌入的余弦相似度,并与标签分数进行比较。

我的问题是 - 在使用给定架构微调模型时,哪些参数正在优化?是不是只微调了BERT模型最后一层的参数?通过查看教程中显示的微调模型的代码示例,我不清楚这一点。

4

0 回答 0