我们设置了 Streamsets 作业。尽管它成功运行会引发以下错误:
“未知的 com.streamsets.pipeline.api.StageException:SPOOLDIR_35 - 假脱机目录运行器失败。原因 java.nio.file.NoSuchFileException:”
错误是“找不到文件”,但实际上文件已成功处理,但仍会引发错误。这会在中间发生,而不是针对所有正在处理的文件。
以下是有关该工作的一些背景:
- 管道从 linux 边缘节点读取文件并将它们摄取到 HDFS
- 错误发生在“读取”阶段
- 我们已经运行相同的管道将近 2 年了,直到上个月左右才发现这个问题。最近我们的流程没有任何变化。间歇性错误似乎与最新的 StreamSets 升级相吻合。
- 我们通过这个管道每 2 小时处理大约 7 个文件,因此每天大约 84 个文件,间歇性错误似乎每天发生在 1-3 个文件上。所有文件仍然在 HDFS 中处理。
知道为什么会这样吗?