我最近一直在玩 Ulmfit,但仍然无法理解语言模型对下一个单词做出正确预测的能力如何影响文本分类。我想我真正的问题是我不明白网络底层发生了什么。如果我错了,请纠正我,但程序是这样的(?):
语言模型经过预训练,然后进行微调。这部分对我来说似乎很清楚:根据当前和前面的词,你形成了关于下一个词的概率。然后模型从旨在创建概率分布的 softmax 层中剥离出来。您添加了一个解码器,该解码器由一个 reLU 层(该层实际上在做什么?)和另一个输出给定文本文档的类成员概率的 softmax 层组成。所以这里有很多我不明白的地方:文本文档是如何被接收和处理的?我假设一个字一个字?那么你如何最终得到预测呢?它是所有单词的平均值吗?嗯,你可以看到我很困惑。希望您能帮助我更好地了解 Ulmfit!提前致谢!