问题标签 [python-s3fs]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

63 问题

0 投票

1 回答

1282 浏览

python - 尝试缓存 s3 文件

我有两个运行的管道。第一个管道从 s3 读取文件进行一些处理并更新文件。第二个管道运行多个作业，对于每个作业，我从 s3 下载文件并产生一些输出。我觉得我通过多次下载在我的第二个管道上浪费了很多时间，因为当我将它们用于多个作业时，我目前不缓存这些文件。因此，鉴于此，我试图在本地缓存 s3 文件。

我做了一些研究，发现可以使用s3fs或fsspec 。到目前为止，我可以使用 s3fs 从 s3 下载和打开文件，但我不确定如何在本地缓存它。

正如您在上面的代码中看到的，我正在从 s3 打开一个文件，然后将其读取到数据帧中。现在我想知道是否有一个参数或我可以传递的东西，以便这个文件被缓存。

当然，另一种方法是我可以检查文件是否存在于某个路径中，如果存在则使用该路径，如果不存在则下载它，但我觉得必须有更好的缓存方法。我对任何和所有建议持开放态度。

python amazon-web-services caching python-s3fs

2020-07-08T01:13:31.613

0 投票

2 回答

4663 浏览

python - 使用 s3fs 下载文件

我正在尝试使用 s3fs 库从 s3 存储桶下载 csv 文件。我注意到使用 pandas 编写新的 csv 以某种方式改变了数据。所以我想直接以原始状态下载文件。

该文档有下载功能，但我不明白如何使用它：

download(self, rpath, lpath[, recursive])：Alias of FilesystemSpec.get.

这是我尝试过的：

python amazon-s3 python-s3fs

2020-07-21T15:13:50.830

0 投票

1 回答

13 浏览

botocore - s3fs 的下一个版本计划何时发布

我尝试使用 0.4.2 s3fs pip 模块，移动大于 5GB 的文件失败并出现写入失败错误。

0.4.2 版本的 s3fs pip 模块存在问题，该问题已在 master 中修复。计划下一个版本何时发布，以便我可以使用此功能。

我可以直接使用master build吗？

botocore python-s3fs

2020-07-24T07:22:47.427

0 投票

0 回答

143 浏览

python - 如何通过 s3fs 连接将参数传递给 ls 命令？

我使用 s3fs 在 Python 中设置了一个文件传输实用程序，在其中我使用 ls 命令填充列表来填充要从 AWS 下载的文件列表。我有兴趣尝试创建另一个仅包含该存储桶中目录的列表。

在 linux 中，我知道这通常会使用 ls -d */. 源文档提到 s3fs 能够接受我设置的linux 命令（例如 ls），如下所示：

从这个意义上说，有没有办法将参数传递给 ls ？就像是：

本文引用了一个名为“goofys”的包，但如果可以避免的话，我宁愿不下载另一个 API。

python boto3 python-s3fs

2020-07-28T20:34:15.720

0 投票

1 回答

1326 浏览

python - 使用 Python 通过流将数据从 S3 传输到 FTP 服务器

使用 Python，我想将匹配模式的文件sample1从 AWS S3 直接复制到 FTP 服务器，而无需下载到本地临时位置。我尝试了以下操作：

我越来越：

关于如何实现这一目标的任何建议？谢谢！

python amazon-s3 ftp ftplib python-s3fs

2020-08-21T06:46:19.047

0 投票

1 回答

1055 浏览

python - Pandas pd.read_csv(s3_path) 失败并显示“TypeError：'coroutine' object is not subscriptable”

我在 Amazon EMR 集群中运行一个 spark 应用程序，从几天前开始，每当我尝试使用 pandas 从 S3 读取文件时都会收到以下错误。我添加了引导操作来安装 pandas、fsspec 和 s3fs。

代码：

错误日志：

s3fs是否存在问题，因为这和 pandas 似乎是唯一收到更新的软件包，但我在 pandas 的变更日志中找不到与此相关的任何内容？

python pandas amazon-emr coroutine python-s3fs

2020-08-26T19:04:32.313

0 投票

1 回答

230 浏览

pandas - 我是否需要检查完整性使用 pandas 从 s3 上传和下载文件？

我使用 pandas 以以下样式从 s3 上传和下载文件（pandas 在后台使用 s3fs）

如果文件很大，通常会担心下载（或上传）不完整并且处理了部分文件。

我需要在这里执行一些 md5 检查以确保数据的完整性吗？或者它已经被 s3fs 处理了？

pandas amazon-s3 python-s3fs

2020-09-04T13:35:12.020

0 投票

1 回答

2031 浏览

amazon-s3 - 无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件

我正在使用 Pyspark 2.4.4。

我想将 s3 存储桶中的一些镶木地板文件加载到 spark 数据框中，并且我想一次读取所有这些文件。

我一直在寻找如何在这些链接中做到这一点：

我尝试了多种方式，但无法加载文件，例如：

我也试过：

但我有这个错误：

我知道路径是正确的，因为使用 das 我能够加载数据：`

amazon-s3 pyspark parquet python-s3fs

2020-10-19T17:47:20.007

0 投票

1 回答

358 浏览

python - 预处理图像后将图像写入 s3fs.S3FileSystem

我目前正在从我的学校系统访问一个 s3 存储桶。
为了连接，我使用了以下内容：

我可以从上面定义的 s3 存储桶中检索图像并使用预处理它们

要将生成的图像 <image_eq> 保存在本地，只需

但是，如何将生成的图像保存/写入 s3fs 文件系统？

python amazon-s3 python-imaging-library python-s3fs

2020-10-30T16:42:06.583

0 投票

1 回答

747 浏览

python - pytest 如何模拟 s3fs.S3FileSystem 打开文件

我正在尝试模拟在 S3 存储桶中打开文件的调用。我拥有的代码是：

我在 pytest 中的模拟是：

但是在运行测试时，我得到了错误：

知道为什么吗？

python mocking pytest python-s3fs

2020-11-06T21:10:26.730

1 2 3 4 5 6 7 8 9 10