我有兴趣分发我的 DNN 模型的训练。但是,我有兴趣通过 AWS S3 而不是通过本地网络进行通信。为什么?我有一个很棒的基于 Hashicorp Nomad 的批处理/异步计算集群设置。如果我可以通过简单地创建新的批处理作业(例如,每个子样本/小批量的作业)来分发模型训练并将其添加到 Nomad 作业队列并允许集群自动扩展以承担工作,我会很高兴并将其发送回主参数服务器。所以我想我试图避免需要预先了解所有机器、它们的网络身份等。更多的是一种无服务器的方法。
我已经在使用批处理计算作业来进行必要的预处理和一些有限的特征提取,但是分布式训练可以作为作业队列中的作业来构建,并且工人数量会波动吗?
这甚至是一件事吗?还是因为通过 S3 之类的东西交换数据的开销,这是一个坏主意?我目前专注于 TensorFlow,但我们在项目切换框架还不够早。