我在 S3 存储桶中有一个子文件夹来存储 CSV 文件。这些 CSV 文件都包含来自一个特定数据源的数据。数据源每月提供一个新的 CSV 文件。我有大约 4 年的数据。
在某个时候(约 2 年前),数据源决定更改数据格式。CSV 的架构已更改(删除了一些列)。数据或多或少还是一样的,我想要的一切都还在。
我想使用爬虫来注册两个模式,最好在同一个表中。理想情况下,我希望它能够识别模式的两个版本。
我该怎么做?
我试过的
- 我上传了子文件夹中的所有文件并运行了一个启用了“为每个 S3 路径创建一个模式”的爬虫。
结果:我得到一张表,两种模式合并:一个大模式,包含两种格式的所有列
- 我上传了子文件夹中的所有文件,并在禁用“为每个 S3 路径创建单个模式”的情况下运行爬虫。
结果:我得到了两个具有两种不同模式的表
为什么我需要这个
这两种不同的模式需要以不同的方式处理。我正在编写一个 Python shell 作业来处理这些文件。我的想法是使用目录来拉取两个不同版本的架构,并根据文件的架构为每个文件触发不同的处理。