在处理了数百万个事件/数据之后,存储信息的最佳位置是在哪里说值得保存数百万个事件?我看到这个提交关闭了一个拉取请求,提到 Parquet 格式,但是,默认是 HDFS?我担心的是保存后(在哪里?)是否可以轻松(快速!)检索该数据?
问问题
1839 次
1 回答
9
Apache Flink 不与特定的存储引擎或格式耦合。存储 Flink 计算结果的最佳位置取决于您的用例。
- 您是在运行批处理还是流式作业?
- 你想对结果做什么?
- 您是否需要批量(全扫描)、点或连续流式访问数据?
- 数据有什么格式?扁平结构(关系)、嵌套、blob、...
根据这些问题的答案,您可以从各种存储后端中进行选择,例如 - 用于批量访问的 Apache HDFS(使用不同的存储格式,例如 Parquet、ORC、自定义二进制文件) - 如果您想以流的形式访问数据,则使用 Apache Kafka - 用于点访问数据的键值存储,例如 Apache HBase 和 Apache Cassandra - 数据库,例如 MongoDB、MySQL...
Flink 为这些系统中的大多数提供了 OutputFormats(一些通过 Hadoop OutputFormats 的包装器)。“最佳”系统取决于您的用例。
于 2015-08-11T22:15:30.657 回答