我想从数据库中导出数据并转换为 Avro + Parquet 格式。Sqoop 支持 Avro 导出,但不支持 Parquet。我尝试使用 Apache Pig、Apache Crunch 等将 Avro 对象转换为 Parquet,但没有任何效果。
Apache pig 给了我“原因:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但是输入路径存在于该位置。
Apache Crunch 总是抛出:java.lang.ClassNotFoundException: Class org.apache.crunch.impl.mr.run.CrunchMapper not found”,尽管我将它添加到了 Hadoop 库路径中。
将数据从 DB 导出为 Parquet 格式的最佳且简单的方法是什么?