2

我已经设置了一个 kinesis firehose 供其他人向我发送数据,并注意到有时数据偶尔会出现格式错误。格式错误的文档无法正确 ETL 到 redshift - 它们最终被留在中间 Firehose S3 存储桶中,在那里它们不断生成垃圾邮件错误消息,引用 STL_LOAD_ERRORS 表

有没有一种安全的方法可以从 S3 存储桶中删除有问题的记录?或者任何其他安全的方法来清理格式错误的记录?

--

请注意,我已经尝试过简单地从 S3 中删除格式错误的记录。这似乎将 Kinesys Firehose 置于无限循环中,生成错误垃圾邮件并显示以下消息:“Redshift 所需的一个或多个 S3 文件已从 S3 存储桶中删除”。据我所知,这种垃圾邮件应该最终会停止,但在我的实验中,它似乎会继续不间断地运行。

4

1 回答 1

1

这是可行的。

  1. STL_Load_Errors 表将为您提供 S3 中的文件名以及错误的行号和原因。
  2. 找到错误的记录并更正它,然后通过 firehose 从源重新传输它。
于 2017-09-05T18:09:46.490 回答