0

我需要从 csv 文件(每天从不同的业务数据库中提取)获取数据到 HDFS,然后将其移动到 Hbase 并最终将这些数据汇总到数据集市(sqlServer)。

我想知道自动化这个过程的最佳方法(使用 java 或 hadoops 工具)

4

2 回答 2

2

我会回应上面的评论。Kafka Connect,它是 Apache Kafka 的一部分。有了这个,您只需使用配置文件从您的源流,您可以使用 KSQL 创建派生/丰富/聚合流,然后将它们流式传输到 HDFS/Elastic/HBase/JDBC/etc 等

这里有一个 Kafka Connect 连接器列表。

本博客系列介绍了基础知识:

于 2017-09-14T07:56:47.247 回答
1

几乎不需要编码?没有特别的顺序

  • Talend 开放工作室
  • 流集数据收集器
  • 阿帕奇尼菲

假设您可以设置 Kafka 集群,您可以尝试 Kafka Connect

如果你想编程,可能是 Spark。否则,请选择您最喜欢的语言。通过 Oozie 安排工作

如果不需要原始 HDFS 数据,可以直接加载到 HBase

于 2017-09-13T01:32:07.347 回答