我一直在尝试使用 TF Federated 在图像分类的联邦学习笔记本教程中描述学习过程(准确性和损失)。
通过修改 epoch 超参数,我看到了收敛速度的重大改进。从 5、10、20 等更改 epoch。但我也看到训练准确度的大幅提高。我怀疑正在发生过度拟合,但我评估测试集的准确性仍然很高。
想知道发生了什么。?
我的理解是 epoch 参数控制每轮训练每个客户端的前/后道具的数量。这个对吗 ?因此,即 10 轮训练 10 轮的 10 轮训练将是 10 轮 X 10 客户端 X 10 轮。意识到需要更大范围的客户等,但我希望在测试集上看到更差的准确性。
我能做些什么来看看发生了什么。我可以使用带有学习曲线之类的评估检查来查看是否发生过拟合吗?
test_metrics = evaluation(state.model, federated_test_data)
似乎只给出一个数据点,我怎样才能得到每个验证的测试示例的单独测试准确性?