hadoop - 使用 awk 的 Hadoop 示例 map reduce 程序

Question

我熟悉使用 Java 的 Hadoop。仅使用 AWK 寻找示例 Hadoop Map reduce 程序。

对于包含...的文本文件

A k1
B k1
C k2
D k3

寻找一个o / p

k1 2
k2 1
k3 1

score 4 · Accepted Answer

4

这可以解决问题：

$ awk '{a[$2]++}END{for(k in a)print k,a[k]}' file
k1 2
k2 1
k3 1

于 2013-07-22T14:11:57.667 回答

score 4 · Accepted Answer

我建议使用 Hadoop 流来执行此操作。无论如何，我都不是 Awk 专家，但我会使用 @sudo_O 答案并将其转换为 Hadoop 世界：

编写一个将用作映射器的 awk 脚本。你只需要一个映射器，不需要减速器。
```
$ cat mapper.awk
#!/usr/bin/awk -f

{a[$2]++}END{for(k in a)print k,a[k]}
```

您可以执行以下操作来运行 Hadoop 流式作业：

${HADOOP_HOME}/bin/hadoop \
jar ${HADOOP_HOME}/contrib/streaming/*.jar \
-D mapreduce.job.reduces=0 \
-D mapred.reduce.tasks=0 \
-input /path/to/input.txt \
-output /path/to/output/dir \
-mapper mapper.awk \
-file /path/to/mapper.awk

您可以通过执行以下操作在 HDFS 中查看结果：
```
hadoop fs -cat /path/to/output/dir/*
```

hadoop - 使用 awk 的 Hadoop 示例 map reduce 程序

2 回答 2

Related

Reference