我有一个巨大的 DynamoDB 表,我想对其进行分析以聚合存储在其属性中的数据。然后应由 Java 应用程序处理聚合数据。虽然我了解 MapReduce 背后的真正基本概念,但我以前从未使用过它。
就我而言,假设我在每个 DynamoDB 项目中都有一个customerId
andorderNumbers
属性,并且我可以为同一个客户拥有多个项目。喜欢:
customerId: 1, orderNumbers: 2
customerId: 1, orderNumbers: 6
customerId: 2, orderNumbers: -1
基本上我想对每个 customerId 的 orderNumbers 求和,然后在 Java 中使用聚合执行一些操作。
AWS Elastic MapReduce 可能对我有帮助,但我不明白如何将自定义 JAR 与 DynamoDB 连接。我的自定义 JAR 可能需要同时公开 amap
和reduce
函数,我在哪里可以找到正确的接口来实现?
另外,我对文档有点困惑,看来我应该先将数据导出到 S3,然后再运行我的自定义 JAR。这个对吗?
谢谢