python - 在 pandas 的下游作业中通过 Athena 读取分区数据

Question

我的数据管道中有 2 个阶段，第一阶段从源读取数据并转储到中间存储桶，下一个阶段从该中间存储桶读取数据。我在中间阶段设置了 athena，我们计划从 athena 读取此分区数据而不是读取文件（使用 Athena 的原因：我们可能会遇到需要根据某些条件在一次读取中从不同分区读取的情况） .

我们是否应该继续采用这种方法，因为我们知道 Athena 在将数据读取到 pandas 数据帧时有一些限制，比如我们一次只能有 1000 条记录。

这个用例有没有更好的解决方案。我们正在使用熊猫。

score 0 · Accepted Answer

我们决定将awsdatawrangler用于我们的目的，因为它更可靠，并且与我们尝试实现的目的相同。

1 回答 1