我需要从 MYSQL 导入数据,运行 MR 并将其导出回 MYSQL。我可以使用 DBInputFormat 和 DBOutputFormat 在单个 MR 作业中成功完成一些记录。当我将输入记录扩展到 100+ 百万条记录时,MR 作业挂起。替代方法是将数据导出到 HDFS,运行 MR 作业并推回 My SQL。
对于大约 400+ 百万条记录的庞大数据集,哪个选项更好,使用 DBInputFormat 和 DBOutputFormat 或使用 HDFS 作为数据源和目标。
使用 HDFS 在我的 MR 工作之前和之后增加了一个步骤。由于数据存储在 HDFS 上,它将被复制(默认 3),并且需要更多的硬盘空间。谢谢鲁佩什