0

我有流数据进入我的消费者应用程序,我最终希望在 Hive/Impala 中显示。一种方法是使用基于 Hive 的 API 将更新批量插入 Hive 表。

另一种方法是将数据作为 avro/parquet 文件直接写入 HDFS,然后让 hive 检测新数据并将其吸入。

我在我的开发环境中尝试了这两种方法,我注意到的“唯一”缺点是我需要在我的代码中考虑到 hive 和/或故障条件的高延迟写入。

是否有要遵循的架构设计模式/最佳实践?

4

0 回答 0