在使用 pp 并行化一个非常复杂的机器学习问题时,我发现自己不得不相当广泛地依赖质量参差不齐的第三方库。特别是在不同的数据集上密集使用时,会出现大量的边缘情况崩溃。我最终将不得不解决这些问题,但在短期内,尝试修复我和他们的错误太多了——而这个库确实是最好的。
我的问题是:是否有一种既定模式可用于允许 pp 中本地工作进程正常失败?
我看到的选项是:
- 不要使用任何本地工作进程,只使用远程工作人员 - 然后依赖套接字超时。
- Shell 都运行到一个辅助 python 脚本,我将它包装并作为一个单独的进程执行,然后只需使用退出代码来检查崩溃。这可能还必须与超时结合起来以防止非段错误故障情况。
我在这里错过了什么吗?我一直在查看 pp.py ,据我所知,工作进程没有退出检测。