我有不同长度的输入文本,从几个字符到一百个单词,所以我决定为每个批次使用不同的MAX_LENGTH,而不是为所有批次固定MAX_LENGTH(对于较小的文本,显然更短的 MAX_LENGTH)。
谷歌搜索后,我在 Keras github 页面中看到了这个线程,它给出了以下解决方案:
序列应按长度分组,并在发送到 Keras 之前按该长度手动分段。
如果我使用这个技巧,我猜在训练时没有办法打乱数据,这可能会导致过度拟合。
我在 Kaggle 中看到了很多使用这个技巧的讨论。我想知道这个问题还有其他解决方案吗?