0

我想使用 RoBERTa 或 Longformer 通过将文档分成 512 (RoBERTa) 或 4096 (Longformer) 令牌的块并对输出进行平均来对具有约 30,000 个令牌的文档进行分类。就预期的准确性和所需的训练时间/计算资源而言,应该首选哪种方法?我的想法是:

  • 罗伯塔:
    • 512 个令牌块内的完全自注意力
    • 每个块的训练时间较短,但块更多
  • 长款:
    • 4096 个令牌块内的滑动窗口注意力
    • 每个块的训练时间更多,但块更少
4

0 回答 0