hadoop - 将数据从 Csv 文件自动获取到 Datalake 的最佳方法

Question

我需要从 csv 文件（每天从不同的业务数据库中提取）获取数据到 HDFS，然后将其移动到 Hbase 并最终将这些数据汇总到数据集市（sqlServer）。

我想知道自动化这个过程的最佳方法（使用 java 或 hadoops 工具）

score 2 · Accepted Answer

我会回应上面的评论。Kafka Connect，它是 Apache Kafka 的一部分。有了这个，您只需使用配置文件从您的源流，您可以使用 KSQL 创建派生/丰富/聚合流，然后将它们流式传输到 HDFS/Elastic/HBase/JDBC/etc 等

这里有一个 Kafka Connect 连接器列表。

本博客系列介绍了基础知识：

score 1 · Accepted Answer

几乎不需要编码？没有特别的顺序

假设您可以设置 Kafka 集群，您可以尝试 Kafka Connect

如果你想编程，可能是 Spark。否则，请选择您最喜欢的语言。通过 Oozie 安排工作

如果不需要原始 HDFS 数据，可以直接加载到 HBase

2 回答 2