我是 Apache Spark 的新手。
我的工作是读取两个 CSV 文件,从中选择一些特定的列,将其合并、聚合并将结果写入单个 CSV 文件。
例如,
CSV1
name,age,deparment_id
CSV2
department_id,deparment_name,location
我想获得第三个 CSV 文件
name,age,deparment_name
我将两个 CSV 都加载到数据框中。然后能够使用数据帧中join,select,filter,drop
存在的几种方法获得第三个数据帧
我也可以使用几个RDD.map()
我也可以使用执行来做同样的hiveql
事情HiveContext
如果我的 CSV 文件很大,我想知道哪种方法最有效,为什么?