我正在使用此处找到的 tst2013.en作为我的测试集来获取测试BLEU
分数以与其他以前的模型进行比较。但是,我必须过滤掉一些超过 100 个单词的句子,否则我将没有资源来运行模型。
但是对于稍微修改的测试集,将测试BLEU
分数与使用未修改测试集的其他模型进行比较是否可以接受?
我正在使用此处找到的 tst2013.en作为我的测试集来获取测试BLEU
分数以与其他以前的模型进行比较。但是,我必须过滤掉一些超过 100 个单词的句子,否则我将没有资源来运行模型。
但是对于稍微修改的测试集,将测试BLEU
分数与使用未修改测试集的其他模型进行比较是否可以接受?