17

我需要将大约 1.3 亿个项目(总共 5+ Gb)初始上传到单个 DynamoDB 表中。在我遇到使用应用程序中的 API 上传它们的问题后,我决定尝试使用 EMR。

长话短说,即使在最强大的集群上,导入非常平均(对于 EMR)的数据量也需要很长时间,花费数百小时而几乎没有进展(大约 20 分钟来处理测试 2Mb 数据位,并且没有管理在 12 小时内完成测试 700Mb 文件)。

我已经联系了 Amazon Premium Support,但到目前为止他们只告诉“由于某种原因 DynamoDB 导入速度很慢”。

我在交互式配置单元会话中尝试了以下说明:

CREATE EXTERNAL TABLE test_medium (
  hash_key string,
  range_key bigint,
  field_1 string,
  field_2 string,
  field_3 string,
  field_4 bigint,
  field_5 bigint,
  field_6 string,
  field_7 bigint
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION 's3://my-bucket/s3_import/'
;

CREATE EXTERNAL TABLE ddb_target (
  hash_key string,
  range_key bigint,
  field_1 bigint,
  field_2 bigint,
  field_3 bigint,
  field_4 bigint,
  field_5 bigint,
  field_6 string,
  field_7 bigint
)
STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
TBLPROPERTIES (
  "dynamodb.table.name" = "my_ddb_table",
  "dynamodb.column.mapping" = "hash_key:hash_key,range_key:range_key,field_1:field_1,field_2:field_2,field_3:field_3,field_4:field_4,field_5:field_5,field_6:field_6,field_7:field_7"
)
;  

INSERT OVERWRITE TABLE ddb_target SELECT * FROM test_medium;

各种标志似乎没有任何明显的效果。尝试了以下设置而不是默认设置:

SET dynamodb.throughput.write.percent = 1.0;
SET dynamodb.throughput.read.percent = 1.0;
SET dynamodb.endpoint=dynamodb.eu-west-1.amazonaws.com;
SET hive.base.inputformat=org.apache.hadoop.hive.ql.io.HiveInputFormat;
SET mapred.map.tasks = 100;
SET mapred.reduce.tasks=20;
SET hive.exec.reducers.max = 100;
SET hive.exec.reducers.min = 50;

为 HDFS 而不是 DynamoDB 目标运行的相同命令在几秒钟内完成。

这似乎是一个简单的任务,一个非常基本的用例,我真的想知道我在这里做错了什么。

4

2 回答 2

15

这是我最近从 AWS 支持那里得到的答案。希望对遇到类似情况的人有所帮助:

EMR 工作人员目前被实现为单线程工作人员,其中每个工作人员一个接一个地写入项目(使用 Put,而不是 BatchWrite)。因此,每次写入消耗 1 个写入容量单位 (IOP)。

这意味着您正在建立大量连接,这会在一定程度上降低性能。如果使用 BatchWrites,这意味着您可以在一次操作中最多提交 25 行,这将降低性能成本(但如果我理解正确,价格相同)。这是我们所知道的,并且可能会在未来的 EMR 中实施。但我们无法提供时间表。

如前所述,这里的主要问题是您在 DynamoDB 中的表已达到预置吞吐量,因此请尝试暂时增加它以进行导入,然后随意将其降低到您需要的任何水平。

这听起来可能有点方便,但是当您执行此操作时警报出现问题,这就是您从未收到警报的原因。此后问题已得到解决。

于 2012-05-24T11:19:38.850 回答
0

上周我也遇到了同样的问题。我做了一些注释来缩短在 DynamoDB 中写入数据的时间

  1. 查找输入文件,如果它们被压缩,Hive 不能拆分超过文件的数量,您将减少可能的映射器数量。

  2. 将 reducer 的数量设置为 1 或 -1,看起来他们并没有使用太多,它会为映射器打开插槽。

  3. 在 dynamodb 中,如果您使用提供的容量,则需要设置要使用的 wcu 数量。请记住,hive 将尽量不消耗超过 dynamodb.throughput.write.percent 中的百分比。如果您使用自动缩放,请将 write.percent 设置为最高目标百分比以保证它会缩放。或者按需放置,不用担心这个,但它更贵。

  4. 您可以更改实例的内存配置以尝试获取更多映射器,在上面的页面中可以查看默认配置,使其更改 mapreduce.map.memory.mb 和 mapreduce.reduce.memory.mb。请注意这里可能会出现内存不足错误。 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-task-config.html

一些相关链接

http://cloudsqale.com/2018/10/22/tez-internals-1-number-of-map-tasks/

https://github.com/awslabs/emr-dynamodb-connector

https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/EMRforDynamoDB.PerformanceTuning.Mappers.html

于 2021-12-23T19:40:14.677 回答