在 Apache Zeppelin 中,我通过调用从 Java JAR 加载的类的静态函数来创建 JavaRDD 对象。是否可以使用 Pyspark 访问此 JavaRDD?
我已经能够通过以下低效的方法解决这个问题。我很高兴看到更清洁的解决方案。
Java部分:
- 将 RDD 的内容映射到它们的序列化版本(例如 JSON 字符串)。
- 将映射的 RDD 写入 Spark SQL 表。
Python部分:
从 SqlContext 访问表。
获取表的 RDD 并将其内容映射回其反序列化版本。