我是 spark 新手,我想使用 group-by 和 reduce 从 CSV 中找到以下内容(一行):
Department, Designation, costToCompany, State
Sales, Trainee, 12000, UP
Sales, Lead, 32000, AP
Sales, Lead, 32000, LA
Sales, Lead, 32000, TN
Sales, Lead, 32000, AP
Sales, Lead, 32000, TN
Sales, Lead, 32000, LA
Sales, Lead, 32000, LA
Marketing, Associate, 18000, TN
Marketing, Associate, 18000, TN
HR, Manager, 58000, TN
我想简化关于按部门、名称、状态分组的关于 CSV的附加列,其中包含sum(costToCompany)和TotalEmployeeCount
应该得到如下结果:
Dept, Desg, state, empCount, totalCost
Sales,Lead,AP,2,64000
Sales,Lead,LA,3,96000
Sales,Lead,TN,2,64000
有没有办法使用转换和操作来实现这一点。还是我们应该进行 RDD 操作?