python - 长序列分类：RoBERTa vs. Longformer

问问题 2022-02-15T12:21:03.467

38 次

0

我想使用 RoBERTa 或 Longformer 通过将文档分成 512 (RoBERTa) 或 4096 (Longformer) 令牌的块并对输出进行平均来对具有约 30,000 个令牌的文档进行分类。就预期的准确性和所需的训练时间/计算资源而言，应该首选哪种方法？我的想法是：

罗伯塔：
- 512 个令牌块内的完全自注意力
- 每个块的训练时间较短，但块更多
长款：
- 4096 个令牌块内的滑动窗口注意力
- 每个块的训练时间更多，但块更少

0 回答 0