我正在尝试在句子分类任务中使用变换器嵌入,而不对其进行微调。我使用过 BERT 嵌入,这些实验给了我非常好的结果。现在我想使用 GPT-2 嵌入(无需微调)。所以我有两个问题,
- 我可以使用这样的 GPT-2 嵌入吗(因为我知道 Gpt-2 是从左到右训练的)
- 除了生成任务之外,在分类任务中是否有 GPT-2 的示例使用?
- 如果我可以使用 GPT-2embeddings,我应该怎么做?
我正在尝试在句子分类任务中使用变换器嵌入,而不对其进行微调。我使用过 BERT 嵌入,这些实验给了我非常好的结果。现在我想使用 GPT-2 嵌入(无需微调)。所以我有两个问题,
我基本上解决了这个问题。在这里,我使用了从 GPT-2 中提取的嵌入。
所以是的,我们可以使用 GPT-2 嵌入序列的最终标记作为类标记。由于从左到右的自注意力机制,最终的token可以表示顺序信息。
请检查以下 GitHub 问题以了解使用 GPT-2 嵌入的实现。github问题
我进行了比较 GPT-2 嵌入和 RoBERTa 嵌入的实验。只有使用 RoBERTa 嵌入而不是 GPT-2,我才能获得更好的结果。