我正在训练一个用于文本分类的语言模型作为下游任务。据我所知,在给定词汇量为 20 的无偏预测的情况下,这种模型的熵可以为 20,困惑度为 2**20。
在训练时,我的模型输出约 2 的交叉熵损失和 4 (2**2) 的困惑度。我想知道他的权利以及给定 20 作为 Vocab 大小的困惑度的可接受值是多少。如果不是这样,那么计算它的正确方法是什么。
我正在训练一个用于文本分类的语言模型作为下游任务。据我所知,在给定词汇量为 20 的无偏预测的情况下,这种模型的熵可以为 20,困惑度为 2**20。
在训练时,我的模型输出约 2 的交叉熵损失和 4 (2**2) 的困惑度。我想知道他的权利以及给定 20 作为 Vocab 大小的困惑度的可接受值是多少。如果不是这样,那么计算它的正确方法是什么。