在很多情况下,我正在编写数据处理程序,并且仅在较大的数据集上才发现新的错误。例如,考虑一个在 1 亿条记录中的 1 条记录上崩溃的脚本(由于意外输入或其他原因);如果我在一小部分数据样本上开发它,我不会看到那个错误。我所能做的就是盯着 Hadoop 的错误日志,调整脚本,然后重新运行整个作业。这在计算和开发人员时间都非常低效。
我想要的是一种下载脚本崩溃时正在处理的数据段的方法。
有没有一种简单的方法可以将其从 Hadoop 中移除?(理想情况下,Hadoop Streaming?)
几年前,我通过挖掘 Hadoop 本身制作的临时目录学到了一些可怕的技巧……不过,这似乎不是一个好的解决方案,我希望现在有更好的解决方案。