我在 AWS S3 中有一个文件每秒更新一次(实际上是在收集新数据)。我想定期将收集的文件移动到我的本地服务器。以下是我正在考虑的几件事。
由于 S3 的成本基于网络负载,因此需要以某种方式以压缩方式完成传输以减轻网络负担。
将数据移出 AWS S3 后,需要删除 S3 上的数据。换句话说,我服务器上的数据和AWS上的数据之和应该是完整的数据集,这两个数据集之间应该有交集。否则,下一次,当我们移动数据时,我的服务器上的数据集会出现重复。
S3 上的数据集一直在收集,新数据使用标准输入附加到文件中。cron 作业上运行了一些东西来收集数据。
这是一个伪代码,显示了文件是如何在 S3 上构建的。
* * * * * nohup python collectData.py >> data.txt
这就要求数据传输不能破坏管道,否则新数据会丢失。