我有下面的数据集。我想获得第一列的唯一列表作为输出。{9719,382 ..} 每行末尾都有整数,因此检查它是否以数字开头和结尾不是一种方法,我想不出解决方案。你能告诉我怎么做吗?如果您详细展示它,我将不胜感激。(在地图中做什么以及在减少步骤中做什么)
id - - [date] "URL"
在您的映射器中,您应该解析每一行并从行的开头写出您感兴趣的令牌(例如 9719)作为键值对中的键(在这种情况下,值无关紧要)。由于键将在发送到减速器之前进行排序,因此您在减速器中需要做的就是遍历值,每次值更改时,输出它。
与 Hadoop 一起打包的WordCount 示例应用程序非常接近您的需要。