1

我有一个 MySQL 数据库和一个 Mongo 数据库,它们组合包含 200 个表,我正在尝试将它连接到 Glue 并将一些表合并在一起,最终得到 20 个合并数据表以及一些过滤器和脚本,这些表过滤掉了其中的一些数据在它到达它需要的地方之前。

我正在使用 AWS Glue 来执行此操作,在使用爬虫生成 1-1 个表之后,我想开始将这些表合并在一起,但是当我创建作业时,我只能选择一个表作为源,这意味着我会结束增加了 200 个工作岗位。

有没有办法让我有一份工作指向多个来源并将它们映射到一个表格,如下面的屏幕截图所示?

在此处输入图像描述

我应该改用其他工具还是在其他地方执行该步骤(即使用 DMS 并为爬虫生成另一个目的地?)

4

1 回答 1

1

您应该使用代码级方法来执行此操作,方法是将每个表映射到单独的数据帧/动态帧并将这些帧连接在一起,并使用 applymapping 函数将其与目标模式一起打印/映射出来。这是一个使用 pyspark 连接或合并两个表的明确示例:连接两个数据框,从一个中选择所有列,从另一个中选择一些列

于 2018-08-17T13:45:25.047 回答