2

我在这种情况下。我有一个变量data,其中包含这种格式的值列表:

data:(id:int, value:float)

然后我有另一个包含一些元数据的变量:

m:(id:int, var1:int, var2:int)

我想做的是:

  1. 过滤m以获取id满足元数据某些条件的列表
  2. Filter data,只保留id第一个查询的结果集中的元组。

即类似的东西:

wanted_metadata = filter m by CONDITION
wanted_ids = foreach wanted_metadata generate id
wanted_data = filter data by id IS INCLUDED IN wanted_ids

目前,我设法使用 JOIN 运算符来做到这一点,但我更喜欢使用一些“成员资格检查”运算符。

你可以帮帮我吗?

4

1 回答 1

2

如果您的数据足够小以适合 RAM,则使用复制连接,即映射侧连接,它被实现为成员资格检查。

于 2013-07-23T08:34:19.937 回答