我正在并行化 sklearn 网格搜索,扫描三个参数,但我在重构项目以使用 ipython.parallel 时遇到了麻烦。我目前的想法是创建一个简单的函数:
- 接受一个岭参数
- 下载数据集以训练模型
- 训练模型,在 S3 上保存分数和生成的模型?
作为一种并行化网格搜索的方法,这是否有意义?
如果是这样,有没有办法在我的本地机器和远程引擎之间共享代码?
例如,我有一个包含许多不同模块的源代码树:
/exploration
/log_regression/
/log_regression/experiments.py
/log_regression/make_model.py
/linear_regression/
/linear_regression/experiments.py
/linear_regression/make_model.py
/linear_regression/parallel.py
使用 StarCluster,我在 EC2 上部署了一个集群,并希望并行化在 ridge 参数上运行 sklearn gridsearch 的过程。但是,我没有发现与远程引擎共享所有本地模块的简单方法。是否有这样做的模式,或者我应该如何重组我的思维?