我想使用 RoBERTa 或 Longformer 通过将文档分成 512 (RoBERTa) 或 4096 (Longformer) 令牌的块并对输出进行平均来对具有约 30,000 个令牌的文档进行分类。就预期的准确性和所需的训练时间/计算资源而言,应该首选哪种方法?我的想法是:
- 罗伯塔:
- 512 个令牌块内的完全自注意力
- 每个块的训练时间较短,但块更多
- 长款:
- 4096 个令牌块内的滑动窗口注意力
- 每个块的训练时间更多,但块更少
我想使用 RoBERTa 或 Longformer 通过将文档分成 512 (RoBERTa) 或 4096 (Longformer) 令牌的块并对输出进行平均来对具有约 30,000 个令牌的文档进行分类。就预期的准确性和所需的训练时间/计算资源而言,应该首选哪种方法?我的想法是: