我正在将 SSIS 解决方案转换为 Hadoop,以便在数据仓库中进行 ETL 处理。
我预期的系统:
ETL - 登陆和登台(Hadoop)----put-data---> Data-warehouse(MySQL)
问题是:在转换短语中,我需要从 hadoop 端(pig 或 mapreduce 作业)在 MySQL 中查找数据。有两种解决方案:
1:克隆所有需要从 MySQL 查找的表到 Hadoop 中。这意味着我们需要维护来自 2 个地方的数据。
第二:直接查询MySQL。我担心许多连接会连接到 MySQL 服务器。
这个问题的解决方案/最佳实践是什么?有没有其他解决办法。