hadoop - 如何使用 Hadoop 从 csv 文件中读取 1000 万条记录并为每条记录创建 pdf

Question

下面的问题比 Hadoop 更符合 MapReduce。我需要知道如何将 hadoop 用于以下用例。

用例：从 tsv 文件中读取 1000 万条记录（每条记录有 20 列），并为每条记录生成一个 pdf。

我有以下可用的单元程序。

在map方法中我应该做什么，在reduce方法中我应该做什么。如果我在 Mapper 的 map 方法中调用 PdfUtil.createPdf 方法，我应该在 Reducer 的 Reduce 方法中做什么？

score 0 · Accepted Answer

@Suresh：是的，您可以在不使用 Reduce 方法的情况下在 Map Reduce 中编码。

只需编写 Map 方法，使用它调用 PdfUtil.createPdf。

我很困惑的一件事是，每条记录都需要一个 PDF 文件吗？

1 回答 1