我正在尝试实现用于文本分类的 Hierarchical Attention论文。我发现的挑战之一是如何管理优化器对网络权重的批处理和更新。该网络的架构由两个依次堆叠的编码器组成:一个句子编码器和一个文档编码器。
当数据集由大型文档组成时,会出现以下问题:每次通过文档编码器,您将多次通过句子编码器。当计算损失并且优化器使用计算的梯度来更新网络参数的权重时,我假设句子编码器的权重应该与文档编码器的权重不同地更新。这样做的好策略是什么?该策略如何在诸如Keras
或之类的库中实施Pytorch
?