使用 S3 Glacier 的 Amazon Athena 日志分析服务
我们在 S3 中有数 PB 的数据。我们是https://www.pubnub.com/,我们将使用数据存储在我们网络的 S3 中以用于计费目的。我们将制表符分隔的日志文件存储在 S3 存储桶中。雅典娜让我们HIVE_CURSOR_ERROR
失败了。
我们的 S3 存储桶设置为在 6 个月后自动推送到 AWS Glacier。除了 Glacier 备份文件之外,我们的存储桶还有热的 S3 文件并且可以读取。因此,我们从 Athena 收到访问错误。错误中引用的文件是 Glacier 备份。
我的猜测是答案将是:不要将冰川备份保存在同一个存储桶中。由于我们的数据量大小,我们无法轻松使用此选项。我相信 Athena 在此设置中不起作用,我们将无法使用 Athena 进行日志分析。
但是,如果有一种方法可以让我们使用 Athena,我们会非常激动。是否有HIVE_CURSOR_ERROR
跳过 Glacier 文件的解决方案和方法?我们的 s3 存储桶是没有文件夹的扁平存储桶。
屏幕截图中省略了上面和下面屏幕截图中显示的 S3 文件对象名称。中的文件引用HIVE_CURSOR_ERROR
实际上是 Glacier 对象。您可以在我们的 S3 存储桶的屏幕截图中看到它。
请注意,我尝试在https://forums.aws.amazon.com/上发帖,但那不是 bueno。