0

我在 AWS S3 中有一个文件每秒更新一次(实际上是在收集新数据)。我想定期将收集的文件移动到我的本地服务器。以下是我正在考虑的几件事。

  1. 由于 S3 的成本基于网络负载,因此需要以某种方式以压缩方式完成传输以减轻网络负担。

  2. 将数据移出 AWS S3 后,需要删除 S3 上的数据。换句话说,我服务器上的数据和AWS上的数据之和应该是完整的数据集,这两个数据集之间应该有交集。否则,下一次,当我们移动数据时,我的服务器上的数据集会出现重复。

  3. S3 上的数据集一直在收集,新数据使用标准输入附加到文件中。cron 作业上运行了一些东西来收集数据。

这是一个伪代码,显示了文件是如何在 S3 上构建的。

* * * * * nohup python collectData.py >> data.txt

这就要求数据传输不能破坏管道,否则新数据会丢失。

4

1 回答 1

0

一种选择是将 S3 存储桶挂载为本地目录(例如,使用RioFS项目)并使用标准 shell 工具(如 rm、cp、mv ..)删除旧文件并将新文件上传到 Amazon S3。

于 2013-10-16T17:46:59.387 回答