amazon-web-services - 使用 Gzip 将更改的文件移动到新服务器

Question

我在 AWS S3 中有一个文件每秒更新一次（实际上是在收集新数据）。我想定期将收集的文件移动到我的本地服务器。以下是我正在考虑的几件事。

由于 S3 的成本基于网络负载，因此需要以某种方式以压缩方式完成传输以减轻网络负担。
将数据移出 AWS S3 后，需要删除 S3 上的数据。换句话说，我服务器上的数据和AWS上的数据之和应该是完整的数据集，这两个数据集之间应该有交集。否则，下一次，当我们移动数据时，我的服务器上的数据集会出现重复。
S3 上的数据集一直在收集，新数据使用标准输入附加到文件中。cron 作业上运行了一些东西来收集数据。

这是一个伪代码，显示了文件是如何在 S3 上构建的。

* * * * * nohup python collectData.py >> data.txt

这就要求数据传输不能破坏管道，否则新数据会丢失。

score 0 · Accepted Answer

一种选择是将 S3 存储桶挂载为本地目录（例如，使用RioFS项目）并使用标准 shell 工具（如 rm、cp、mv ..）删除旧文件并将新文件上传到 Amazon S3。

1 回答 1