我们有 Java 库用于在 Spark 环境中执行某些操作(主要是智能地查询后端)。我想使用它们的功能,但用 Python 开发。是否有这样做的标准方法(“这”可能意味着:在 Java 和 Python 之间传递 RDD 和活动的 SparkContext)?
我已经看到PySpark 使用Py4J来公开 SparkContext,所以我想我可以或多或少地从 Python 运行我想要的所有 Java 代码。然而,看看 Py4J 接口的 Python 包装器,似乎有很多地方出错了,而且一条更彻底的路径似乎更可取。