1

我有两个在 Google Cloud ML 上训练的模型版本,一个使用 2 个工作人员,一个只使用主节点。但是,在分布式模式下训练后召回率显着下降。我遵循了为大约 2000 个步骤提供的示例示例(工人和主人都参与了这些步骤)

只有大师

RECALL metrics:  0.352357320099
Accuracy over the validation set:  0.737576772753

硕士和2名工人

RECALL metrics:  0.0223325062035
Accuracy over the validation set:  0.770519262982
4

1 回答 1

2

要记住的一般想法是,随着工作人员数量的增加,您也在增加有效批量大小(每个工作人员每步处理 N 个示例)。

为了解决这个问题,您需要考虑调整其他超参数。尝试选择较小的学习率来减少每一步的变化量。因此,您可能还需要根据您的模型和数据将步骤数增加一些因素,以达到相同的收敛。

于 2016-10-18T08:10:27.820 回答