0

我正在将 SSIS 解决方案转换为 Hadoop,以便在数据仓库中进行 ETL 处理。

我预期的系统:
ETL - 登陆和登台(Hadoop)----put-data---> Data-warehouse(MySQL)

问题是:在转换短语中,我需要从 hadoop 端(pig 或 mapreduce 作业)在 MySQL 中查找数据。有两种解决方案:
1:克隆所有需要从 MySQL 查找的表到 Hadoop 中。这意味着我们需要维护来自 2 个地方的数据。
第二:直接查询MySQL。我担心许多连接会连接到 MySQL 服务器。

这个问题的解决方案/最佳实践是什么?有没有其他解决办法。

4

1 回答 1

1

您必须在 Hadoop 中对您的维度表进行一些表示。根据您对维度数据进行 ETL 的方式,您实际上可能会将它们作为 ETL 的副作用。

您是否打算在 MySQL 中存储最精细的事实数据?根据我的经验,在存储和分析事实数据方面,Hive + Hadoop 击败了现实数据库。如果您需要实时访问查询结果,则可以通过将汇总结果存储在 MySQL 中来“缓存”它们。

于 2013-10-04T16:51:11.147 回答