我必须处理非常大的文本文件中的数据(如 5 TB 大小)。处理逻辑使用 supercsv 解析数据并对其进行一些检查。显然,由于大小相当大,我们计划使用 hadoop 来利用并行计算。我在我的机器上安装了 hadoop,我开始编写映射器和减速器类,但我被卡住了。因为地图需要一个键值对,所以要读取这个文本文件,我不确定在这个特定场景中应该是什么键和值。有人可以帮我解决这个问题。
我的思考过程是这样的(让我知道我是否正确) 1)使用 superCSV 读取文件,hadoop 为 hdfs 中的每个文件块生成 supercsv bean。(我假设 hadoop 负责拆分文件) 2) 对于这些 supercsvbeans 中的每一个运行我的检查逻辑。