python - AWS Glue 爬虫：输入数据的不同架构

问问题 2020-01-23T12:38:12.073

518 次

2

我在 S3 存储桶中有一个子文件夹来存储 CSV 文件。这些 CSV 文件都包含来自一个特定数据源的数据。数据源每月提供一个新的 CSV 文件。我有大约 4 年的数据。

在某个时候（约 2 年前），数据源决定更改数据格式。CSV 的架构已更改（删除了一些列）。数据或多或少还是一样的，我想要的一切都还在。

我想使用爬虫来注册两个模式，最好在同一个表中。理想情况下，我希望它能够识别模式的两个版本。

我该怎么做？

我试过的

我上传了子文件夹中的所有文件并运行了一个启用了“为每个 S3 路径创建一个模式”的爬虫。

结果：我得到一张表，两种模式合并：一个大模式，包含两种格式的所有列

我上传了子文件夹中的所有文件，并在禁用“为每个 S3 路径创建单个模式”的情况下运行爬虫。

结果：我得到了两个具有两种不同模式的表

为什么我需要这个

这两种不同的模式需要以不同的方式处理。我正在编写一个 Python shell 作业来处理这些文件。我的想法是使用目录来拉取两个不同版本的架构，并根据文件的架构为每个文件触发不同的处理。

0 回答 0