2

我有大数据转储。计划使用批量插入上传 AWS DynamoDB。哪种流量选项具有成本效益:

  1. 大数据 (GiB) -> 批量插入到 DynamoDB -> 查询分析
  2. 大数据 (GiB) -> AWS S3 -> 创建 Hive 表映射 -> EMR Hive 查询以进行分析 [不使用 Dynamo DB]

在 DynamoDB 中,如果从 EMR 或 EC2 访问,是否有任何吞吐量限制?

4

2 回答 2

0

这在很大程度上取决于您在 Hive 中尝试优化的内容(如果有的话)。如果您想使用 ORC 文件,那么您可能需要稍微了解一下 DynamoDB。ORC 文件要求您双重加载数据。首先,您必须将数据加载到临时表中。然后您必须从该阶段进行选择并插入到 ORC 文件表中。这有效地使您携带数据两次。

如果您不打算优化数据加载,那么您可能需要更多地查看@seedhead 的响应。

于 2014-01-14T13:54:16.363 回答
0

无需为此使用 DynamoDB。选择选项 2 并将您的数据上传到 S3,然后进行 Hive 查询。

EMR 将使用多少 DynamoDB 读取容量存在可配置限制。

于 2012-07-19T20:56:20.860 回答