2

我有一个表格,列中有不同的条目(但我不知道所有条目)

table:    
column1 | column2
   x1   |    y1
   x1   |    y2
   x2   |    y2
   x3   |    y1
   x3   |    y2

现在我想要一个列表或字典,其中第一列的所有条目都是计数的:

dict = (x1:2, x2:1, x3:2)

我试过了:

table = env.readCsvFile(tablepath).as('column1, 'column2)
var content = table.select('column1)
content.count()

我尝试使用 Word-Count 示例链接,但它需要一个字符串数组作为输入?!所以

Wordcount(content) or Wordcount(content.toString()) 

不起作用。

4

1 回答 1

2

如果要计算每个值的计数,则column1需要分组column1和计数:

table = env.readCsvFile(tablepath).as('column1, 'column2)
var content = table.groupBy('column1').select('column1.count)

输入WordCount指定输入和输出文件或您的数据(它需要两个字符串---或没有,用于使用内存中的示例数据并将结果打印到stdout)。参数,不是要处理的数据。

于 2015-09-14T17:03:48.860 回答