我正在运行一个 EMR,它处理一些包含大约 15-20M 日志事件的日志。有时很少有日志事件包含格式错误的数据,这些数据会破坏我的管道。我正在寻找一些选项来将这些日志事件放入文件或队列中。然后我可以验证它们,将它们报告给相应的服务并重新处理它们可能不在同一个管道中,因为分析需要一些时间来更正日志。
运行批处理作业的不同公司可用和广泛使用的最佳选项是什么?
我正在运行一个 EMR,它处理一些包含大约 15-20M 日志事件的日志。有时很少有日志事件包含格式错误的数据,这些数据会破坏我的管道。我正在寻找一些选项来将这些日志事件放入文件或队列中。然后我可以验证它们,将它们报告给相应的服务并重新处理它们可能不在同一个管道中,因为分析需要一些时间来更正日志。
运行批处理作业的不同公司可用和广泛使用的最佳选项是什么?