我有来自 MySQL 的数据,就像这样..
ItemID
Metric1
Metric2
Metric3
和这样的数据,我使用 Hive 来实现 Hadoop ..
ItemID
Metric1
Metric2
Metric3
现在 ItemID 是唯一标识符。所以我要用以下列设置输出到一个文件中的是:
ItemID
Metric1 (MySQL)
Metric2 (MySQL)
Metric3 (MySQL)
Metric1 (Hadoop)
Metric2 (Hadoop)
Metric3 (Hadoop)
是否有另一种方法,然后只循环一个文件,然后在另一个文件中搜索 ItemID 并将匹配的行输出到另一个文件中?这似乎真的很低效。