我有很多 CSV 文件,都带有标题行。这些文件看起来都很相似:
name, gender, preference, ....
peter, m, soap, ...
paul, m, gel, ...
mary, f, soap, ...
.
.
.
但是列位置和确切的标题名称可能会有些不同,例如。另一个文件可能如下所示:
"the preferences", "the name", "the gender",....
soap, peter, m, ...
gel, paul, m, ...
soap, mary, f, ...
.
.
.
我只想输出/存储标题包含单词“ name
”的列。这个专栏的定位我事先不知道,因为每个文件可以不一样。
因此,我需要将每个文件中的列与其标题名称相关联。我可以在 Pig 中执行此操作吗?
我虽然使用了两个FILTER
运算符(一个用于标题,一个用于数据),但是否不必读取两次数据?