我的数据处理中的一个常见模式是按一组列分组,应用过滤器,然后再次展平。例如:
my_data_grouped = group my_data by some_column;
my_data_grouped = filter my_data_grouped by <some expression>;
my_data = foreach my_data_grouped flatten(my_data);
这里的问题是,如果my_data
在此操作之后以类似 (c1, c2, c3) 的模式开始,它将具有类似 (mydata::c1, mydata::c2, mydata::c3) 的模式。如果列是唯一的,有没有办法轻松去除“mydata::”前缀?
我知道我可以做这样的事情:
my_data = foreach my_data generate c1 as c1, c2 as c2, c3 as c3;
但是,对于具有大量列的数据集,这会变得尴尬且难以维护,而对于具有可变列的数据集来说,这是不可能的。