3

我需要处理自定义 csv 文件作为输入并将 csv 文件写回 HDFS。我可以直接在真正发生的地图减少类中执行此操作吗?

为了处理我的 csv 文件,我使用的是 opencsv 库。我看过一些教程,他们使用 inputformat 和 outputformat 标志来指定处理用户定义格式的 java 类。有人可以就如何使用 csv 文件提供建议吗?

我想坚持使用 hadoop 提供的功能,否则我自己实现的输入和输出格式可能会使我的处理速度变慢。

4

1 回答 1

4

问题是您是否需要多行 csv。
如果您不需要它 - 您可以使用 vanilla TextInputFormat 和 TextOutputFormat 并在映射器中使用 opencsv 来解析行。对于输出 TextOutputFormat 也很好
如果您需要多行 - 您必须做一些技巧来组装逻辑记录。您可以为它创建自己的输入格式,或者在映射器中进行。

于 2012-06-04T12:06:07.770 回答