4

我有一个 DynamoDB 表,它有 150 万条记录/2GB。如何将其导出到 S3?

执行此操作的 AWS 数据管道方法适用于一个小表。但是我在将 150 万条记录表导出到我的 S3 时遇到了问题。

在我最初的试验中,管道作业花了 1 个小时,但失败了

java.lang.OutOfMemoryError:超出 GC 开销限制

我通过以下链接向 EMR 集群内的实例提供了一个 hadoop-env 配置对象,从而增加了 namenode 堆大小

增加堆大小后,我的下一个作业运行尝试在 1 小时后失败,并出现另一个错误,如随附的屏幕截图所示。我不知道该怎么做才能完全解决这个问题。

在此处输入图像描述 在此处输入图像描述

同时检查 EMR 集群中实例的 AWS Cloudwatch 图。核心节点持续保持 100% 的 CPU 使用率。

EMR 集群实例类型(主节点和核心节点)为 m3.2xlarge。

4

1 回答 1

3

问题在于地图任务没有有效运行。核心节点达到 100% 的 CPU 使用率。我将集群实例类型升级到可用的计算 C 系列之一,并且导出工作没有问题。

于 2020-09-07T08:39:44.193 回答