我是 spark 新手,我正在尝试根据 csv 文件的某些字段创建 distinct().count() 。
CSV结构(无标题):
id,country,type
01,AU,s1
02,AU,s2
03,GR,s2
03,GR,s2
加载 .csv 我输入:
lines = sc.textFile("test.txt")
lines
然后按预期返回 3的不同计数:
lines.distinct().count()
但我不知道如何根据 let say id
and进行不同的计数country
。