apache-flink - Apache Flink 中的存储

Question

在处理了数百万个事件/数据之后，存储信息的最佳位置是在哪里说值得保存数百万个事件？我看到这个提交关闭了一个拉取请求，提到 Parquet 格式，但是，默认是 HDFS？我担心的是保存后（在哪里？）是否可以轻松（快速！）检索该数据？

score 9 · Accepted Answer

Apache Flink 不与特定的存储引擎或格式耦合。存储 Flink 计算结果的最佳位置取决于您的用例。

您是在运行批处理还是流式作业？
你想对结果做什么？
您是否需要批量（全扫描）、点或连续流式访问数据？
数据有什么格式？扁平结构（关系）、嵌套、blob、...

根据这些问题的答案，您可以从各种存储后端中进行选择，例如 - 用于批量访问的 Apache HDFS（使用不同的存储格式，例如 Parquet、ORC、自定义二进制文件） - 如果您想以流的形式访问数据，则使用 Apache Kafka - 用于点访问数据的键值存储，例如 Apache HBase 和 Apache Cassandra - 数据库，例如 MongoDB、MySQL...

Flink 为这些系统中的大多数提供了 OutputFormats（一些通过 Hadoop OutputFormats 的包装器）。“最佳”系统取决于您的用例。

apache-flink - Apache Flink 中的存储

1 回答 1

Related

Reference