2

目前我们有火花结构化流

在箭头文档中,我找到了箭头流,我们可以在其中使用 Python 创建流、生成数据并使用StreamReaderJava/Scala 使用流

我想知道这两者是否集成在一起,我们可以在其中做一些事情,比如在 Python 中生成箭头流并使用 spark 结构化流来获取流(以分布式方式)?


想象一个场景,想要构建一个易于使用的 Python api,但计算引擎是在 Java/Scala 上,使用 Kafka/Redis 无法解决跨语言的数据类型。但是使用箭头目前没有集群支持来访问数据

4

2 回答 2

1

也许不完全是您正在寻找的东西,但 Spark 3.3 将有mapInArrowAPI 调用 - https://github.com/apache/spark/pull/34505

但是,这不适用于流式传输。

于 2021-11-28T05:05:52.740 回答
0

我从来没有听说过这样的项目。您所描述的几乎是 PySpark 结构化流式处理,其中您有一个正在运行的 python 应用程序与运行在 JVM 上的 Spark 基础设施通信。

于 2019-11-24T21:20:37.300 回答