python - 尝试缓存 s3 文件

Question

我有两个运行的管道。第一个管道从 s3 读取文件进行一些处理并更新文件。第二个管道运行多个作业，对于每个作业，我从 s3 下载文件并产生一些输出。我觉得我通过多次下载在我的第二个管道上浪费了很多时间，因为当我将它们用于多个作业时，我目前不缓存这些文件。因此，鉴于此，我试图在本地缓存 s3 文件。

我做了一些研究，发现可以使用s3fs或fsspec 。到目前为止，我可以使用 s3fs 从 s3 下载和打开文件，但我不确定如何在本地缓存它。

import s3fs
import pandas as pd

FS = s3fs.S3FileSystem()

file = FS.open('s3://my-datasets/something/foo.csv')
# of = fsspec.open("filecache::s3://bucket/key", s3={'anon': True}, filecache={'cache_storage'='/tmp/files'})
df = pd.read_csv(file, sep='|', header=None)
print(df)

正如您在上面的代码中看到的，我正在从 s3 打开一个文件，然后将其读取到数据帧中。现在我想知道是否有一个参数或我可以传递的东西，以便这个文件被缓存。

当然，另一种方法是我可以检查文件是否存在于某个路径中，如果存在则使用该路径，如果不存在则下载它，但我觉得必须有更好的缓存方法。我对任何和所有建议持开放态度。

score 1 · Accepted Answer

Amazon S3 是一种对象存储服务，可以通过经过身份验证的 API 请求进行访问。

诸如s3fs将 Amazon S3 呈现为文件系统之类的工具，但它们需要将这种用法转换为正常的 S3 API 调用。当在 S3 或本地 s3fs 虚拟磁盘中进行大量更新时，可能需要一些时间来更新另一侧，并且在高使用情况下它们可能会变得不同步。

s3fs 保留文件缓存的事实意味着文件可能会更快地变得不同步，这取决于它返回并检查 S3 中的内容是否已更改的频率。

它基本上在您的应用程序和 S3 之间增加了另一层复杂性。如果你可以直接去，它总是更可靠。但是，这意味着您可能需要自己实现一些有用的功能。

如果您打算在生产环境中使用它，我建议您创建一个测试平台来模拟适当的使用水平，以确认所有系统都按预期工作。

python - 尝试缓存 s3 文件

1 回答 1

Related

Reference