问题标签 [python-s3fs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1282 浏览

python - 尝试缓存 s3 文件

我有两个运行的管道。第一个管道从 s3 读取文件进行一些处理并更新文件。第二个管道运行多个作业,对于每个作业,我从 s3 下载文件并产生一些输出。我觉得我通过多次下载在我的第二个管道上浪费了很多时间,因为当我将它们用于多个作业时,我目前不缓存这些文件。因此,鉴于此,我试图在本地缓存 s3 文件。

我做了一些研究,发现可以使用s3fsfsspec 。到目前为止,我可以使用 s3fs 从 s3 下载和打开文件,但我不确定如何在本地缓存它。

正如您在上面的代码中看到的,我正在从 s3 打开一个文件,然后将其读取到数据帧中。现在我想知道是否有一个参数或我可以传递的东西,以便这个文件被缓存。

当然,另一种方法是我可以检查文件是否存在于某个路径中,如果存在则使用该路径,如果不存在则下载它,但我觉得必须有更好的缓存方法。我对任何和所有建议持开放态度。

0 投票
2 回答
4663 浏览

python - 使用 s3fs 下载文件

我正在尝试使用 s3fs 库从 s3 存储桶下载 csv 文件。我注意到使用 pandas 编写新的 csv 以某种方式改变了数据。所以我想直接以原始状态下载文件。

文档有下载功能,但我不明白如何使用它:

download(self, rpath, lpath[, recursive])Alias of FilesystemSpec.get.

这是我尝试过的:

0 投票
1 回答
13 浏览

botocore - s3fs 的下一个版本计划何时发布

我尝试使用 0.4.2 s3fs pip 模块,移动大于 5GB 的文件失败并出现写入失败错误。

0.4.2 版本的 s3fs pip 模块存在问题,该问题已在 master 中修复。计划下一个版本何时发布,以便我可以使用此功能。

我可以直接使用master build吗?

0 投票
0 回答
143 浏览

python - 如何通过 s3fs 连接将参数传递给 ls 命令?

我使用 s3fs 在 Python 中设置了一个文件传输实用程序,在其中我使用 ls 命令填充列表来填充要从 AWS 下载的文件列表。我有兴趣尝试创建另一个仅包含该存储桶中目录的列表。

在 linux 中,我知道这通常会使用 ls -d */. 源文档提到 s3fs 能够接受我设置的linux 命令(例如 ls),如下所示:

从这个意义上说,有没有办法将参数传递给 ls ?就像是:

本文引用了一个名为“goofys”的包,但如果可以避免的话,我宁愿不下载另一个 API。

0 投票
1 回答
1326 浏览

python - 使用 Python 通过流将数据从 S3 传输到 FTP 服务器

使用 Python,我想将匹配模式的文件sample1从 AWS S3 直接复制到 FTP 服务器,而无需下载到本地临时位置。我尝试了以下操作:

我越来越:

关于如何实现这一目标的任何建议?谢谢!

0 投票
1 回答
1055 浏览

python - Pandas pd.read_csv(s3_path) 失败并显示“TypeError:'coroutine' object is not subscriptable”

我在 Amazon EMR 集群中运行一个 spark 应用程序,从几天前开始,每当我尝试使用 pandas 从 S3 读取文件时都会收到以下错误。我添加了引导操作来安装 pandas、fsspec 和 s3fs。

代码:

错误日志:

s3fs是否存在问题,因为这和 pandas 似乎是唯一收到更新的软件包,但我在 pandas 的变更日志中找不到与此相关的任何内容?

0 投票
1 回答
230 浏览

pandas - 我是否需要检查完整性使用 pandas 从 s3 上传和下载文件?

我使用 pandas 以以下样式从 s3 上传和下载文件(pandas 在后台使用 s3fs)

如果文件很大,通常会担心下载(或上传)不完整并且处理了部分文件。

我需要在这里执行一些 md5 检查以确保数据的完整性吗?或者它已经被 s3fs 处理了?

0 投票
1 回答
2031 浏览

amazon-s3 - 无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件

我正在使用 Pyspark 2.4.4。

我想将 s3 存储桶中的一些镶木地板文件加载到 spark 数据框中,并且我想一次读取所有这些文件。

我一直在寻找如何在这些链接中做到这一点:

我尝试了多种方式,但无法加载文件,例如:

我也试过:

但我有这个错误:

我知道路径是正确的,因为使用 das 我能够加载数据:`

0 投票
1 回答
358 浏览

python - 预处理图像后将图像写入 s3fs.S3FileSystem

我目前正在从我的学校系统访问一个 s3 存储桶。
为了连接,我使用了以下内容:

我可以从上面定义的 s3 存储桶中检索图像并使用预处理它们

要将生成的图像 <image_eq> 保存在本地,只需

但是,如何将生成的图像保存/写入 s3fs 文件系统?

0 投票
1 回答
747 浏览

python - pytest 如何模拟 s3fs.S3FileSystem 打开文件

我正在尝试模拟在 S3 存储桶中打开文件的调用。我拥有的代码是:

我在 pytest 中的模拟是:

但是在运行测试时,我得到了错误:

知道为什么吗?