我在 AWS S3 中存储了 2 个制表符分隔的数据集。我正在尝试编写一个 EMR 作业,它将基于一个公共键(一组字段值)加入这两个数据集。我当前的版本填充了 2 个列表并逐行比较它们;输出具有公共键的行。我一直在用 python 编写,但似乎无法弄清楚通过 stdin 引入 2 个文件并将每一行相互比较以加入两个数据集的逻辑。我找到的大部分文档都是 Java 文档。我正在使用亚马逊的 EMR 来运行我的所有工作。任何帮助是极大的赞赏。
谢谢你
我在 AWS S3 中存储了 2 个制表符分隔的数据集。我正在尝试编写一个 EMR 作业,它将基于一个公共键(一组字段值)加入这两个数据集。我当前的版本填充了 2 个列表并逐行比较它们;输出具有公共键的行。我一直在用 python 编写,但似乎无法弄清楚通过 stdin 引入 2 个文件并将每一行相互比较以加入两个数据集的逻辑。我找到的大部分文档都是 Java 文档。我正在使用亚马逊的 EMR 来运行我的所有工作。任何帮助是极大的赞赏。
谢谢你
由于您已经在使用 EMR,您是否看过 Hive?
http://aws.amazon.com/articles/Elastic-MapReduce/3681655242374956