有没有人尝试过在 Spark 中使用 python 概率编程库?或者有没有人知道这需要什么?
我觉得 Edward 会是最简单的,因为已经有连接 Tensorflow 和 Spark 的工具,但仍然不清楚需要进行哪些低级代码更改。
我知道分布式 MCMC 仍然是一个积极研究的领域(参见MC-Stan on Spark?),那么这是否合理实施?谢谢!
有没有人尝试过在 Spark 中使用 python 概率编程库?或者有没有人知道这需要什么?
我觉得 Edward 会是最简单的,因为已经有连接 Tensorflow 和 Spark 的工具,但仍然不清楚需要进行哪些低级代码更改。
我知道分布式 MCMC 仍然是一个积极研究的领域(参见MC-Stan on Spark?),那么这是否合理实施?谢谢!
您可以将 Tensorflow 连接器与 Edward 一起使用,因为它基于 Tensorflow,MCMC 的主要缺点之一是计算量很大,您可以尝试对贝叶斯模型进行变分推理,它近似于目标分布。(我相信这也适用于 Pyro 和 PyMC3),你也可以使用 Tensorflow 分布式tensorflow 分布式
我还建议您使用/尝试一个名为“Dask”的库https://dask.pydata.org/en/latest/ Dask,您可以将您的模型从您的工作站扩展到一个集群,它也有 Tensorflow 连接器。
希望这可以帮助
我见过有人在 PySpark 中运行 Pyro+PyTorch,但用例是 CPU-only,不涉及分布式训练。