看似简单的问题,却找不到答案。
问题:我创建了一个函数,我将把它传递给 map(),它接受一个字段并从中创建三个字段。我希望 map() 的输出给我一个新的 RDD,包括来自输入 RDD 和新/输出 RDD 的字段。我该怎么做呢?
我是否需要将我的数据的键添加到函数的输出中,以便我可以将更多的输出 RDD 加入到我的原始 RDD 中?这是正确/最佳做法吗?
def extract_fund_code_from_iv_id(holding):
# Must include key of data for later joining
iv_id = Row(iv_id_fund_code=holding.iv_id[:2], iv_id_last_code=holding.iv_id[-2:])
return iv_id
更基本的是,我似乎无法将两个 Row 组合起来。
row1 = Row(name="joe", age="35")
row2 = Row(state="MA")
print row1, row2
这不会像我想要的那样返回 new Row() 。
谢谢