0

我是 AWS Glue 的新手,希望您能帮助我进行非常简单的转换。我正在尝试学习 AWS Glue

下面是我的数据。我想在目标数据集中添加一个新列,如果电影评分高于 5,则显示“是”,否则显示“否”。Movie_Id 和 User_id 组合是数据集中的唯一字段。

我的数据

id  movie_id    user_id    rating  
1    abc         xyx        10
2    csd         xyx         8
3    abc         sss         3
4    csd         sss         5

结果

id   movie_id     user_id     rating   Yes/No
1    abc         xyx        10        Yes
2    csd         xyx         8        Yes
3    abc         sss         3        No
4    csd         sss         5        No
4

1 回答 1

1

这可以使用类似于如下所示的 UDF 来完成。你可以在这里阅读更多关于它的信息。

def deriveBool(rec):
  if rec["rating"] > 5 :
    rec["Yes/No"] = 'Yes'
  else:
    rec["Yes/No"] = 'No'
  return rec    
datasource_mapped = Map.apply(frame = datasource0, f = deriveBool, transformation_ctx = "deriveboolvalues")
于 2021-05-05T00:49:32.630 回答