我有大数据转储。计划使用批量插入上传 AWS DynamoDB。哪种流量选项具有成本效益:
- 大数据 (GiB) -> 批量插入到 DynamoDB -> 查询分析
- 大数据 (GiB) -> AWS S3 -> 创建 Hive 表映射 -> EMR Hive 查询以进行分析 [不使用 Dynamo DB]
在 DynamoDB 中,如果从 EMR 或 EC2 访问,是否有任何吞吐量限制?
我有大数据转储。计划使用批量插入上传 AWS DynamoDB。哪种流量选项具有成本效益:
在 DynamoDB 中,如果从 EMR 或 EC2 访问,是否有任何吞吐量限制?
这在很大程度上取决于您在 Hive 中尝试优化的内容(如果有的话)。如果您想使用 ORC 文件,那么您可能需要稍微了解一下 DynamoDB。ORC 文件要求您双重加载数据。首先,您必须将数据加载到临时表中。然后您必须从该阶段进行选择并插入到 ORC 文件表中。这有效地使您携带数据两次。
如果您不打算优化数据加载,那么您可能需要更多地查看@seedhead 的响应。
无需为此使用 DynamoDB。选择选项 2 并将您的数据上传到 S3,然后进行 Hive 查询。
EMR 将使用多少 DynamoDB 读取容量存在可配置限制。