评估语言模型的流行方法是困惑。
但是我们不能直接从 BiLSTM 模型中找到困惑数。
我们需要从 2^(cross-entropy) 计算它。
我应该使用 BLEU 还是 Next-word 预测结果或其他方法来评估这些模型?
我会很感激任何想法。
评估语言模型的流行方法是困惑。
但是我们不能直接从 BiLSTM 模型中找到困惑数。
我们需要从 2^(cross-entropy) 计算它。
我应该使用 BLEU 还是 Next-word 预测结果或其他方法来评估这些模型?
我会很感激任何想法。