0

我有一个用例,我想用 Java 中的 Flink 实现 AWS Kinesis Data Application。它将通过 Data Streams API 监听多个 Kinesis 流。但是,这些流的分析将在 Python 中完成(因为我们的数据科学家更喜欢 Python)。

这个答案,似乎支持从 Java 调用 Python UDF。但是,我希望能够将传入流转换为表格,通过

StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);
Table sessionsTable = tableEnv.fromDataStream(inputStream);

...然后有一个 Python 处理器被调用来处理该流。

我真的有3个问题:

  1. 这是受支持的用例吗?
  2. 如果是这样,是否有描述如何执行此操作的文档?
  3. 如果是这样,这是否会给应用程序增加大量开销?
4

1 回答 1

0

Flink 文档中学习使用 Python 与表和数据流的起点位于https://ci.apache.org/projects/flink/flink-docs-stable/docs/dev/python/overview/

Python API 仅提供 Java 的一部分;您必须查看是否包含您需要的内容。

不确定性能,但例如,您可以在 Flink Tables 和 Pandas dataframes 之间来回转换

于 2021-06-18T07:59:23.460 回答