hadoop - 从 Hadoop 端查找关系数据库中的数据

Question

我正在将 SSIS 解决方案转换为 Hadoop，以便在数据仓库中进行 ETL 处理。

我预期的系统：
ETL - 登陆和登台（Hadoop）----put-data---> Data-warehouse（MySQL）

问题是：在转换短语中，我需要从 hadoop 端（pig 或 mapreduce 作业）在 MySQL 中查找数据。有两种解决方案：
1：克隆所有需要从 MySQL 查找的表到 Hadoop 中。这意味着我们需要维护来自 2 个地方的数据。
第二：直接查询MySQL。我担心许多连接会连接到 MySQL 服务器。

这个问题的解决方案/最佳实践是什么？有没有其他解决办法。

score 1 · Accepted Answer

您必须在 Hadoop 中对您的维度表进行一些表示。根据您对维度数据进行 ETL 的方式，您实际上可能会将它们作为 ETL 的副作用。

您是否打算在 MySQL 中存储最精细的事实数据？根据我的经验，在存储和分析事实数据方面，Hive + Hadoop 击败了现实数据库。如果您需要实时访问查询结果，则可以通过将汇总结果存储在 MySQL 中来“缓存”它们。

hadoop - 从 Hadoop 端查找关系数据库中的数据

1 回答 1

Related

Reference