4

我是 Pig 的新手,正在尝试理解基本命令。我有一个数据集 A,我在内部加入了数据集 B。我只想保留结果数据集中的一些变量。我怎么做?这是我到目前为止所拥有的

A = LOAD 'science_scores';
B = LOAD 'math_scores';
AB = JOIN A BY Name, B BY Student_Name;

现在 A 和 B 都有很多我不需要的其他列。在 SQL 中,我会做这样的事情:

SELECT A.science_score, B.math_score
FROM A
INNER JOIN B
ON A.Name = B.Student_Name

有人可以帮我弄清楚如何做到这一点吗?

谢谢!

4

2 回答 2

4

您正在寻找FOREACHGENERATE关键字。

selected = FOREACH AB GENERATE science_score, math_score;
于 2013-11-11T22:56:51.267 回答
0
A = LOAD 'science_scores';
B = LOAD 'math_scores';
AB = JOIN A BY Name, B BY Student_Name;
dump AB;

请参考以下链接。

如何在 Apache PIG 中正确执行此内部连接?

于 2013-11-11T20:41:27.980 回答