问题标签 [python-s3fs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 尝试缓存 s3 文件
我有两个运行的管道。第一个管道从 s3 读取文件进行一些处理并更新文件。第二个管道运行多个作业,对于每个作业,我从 s3 下载文件并产生一些输出。我觉得我通过多次下载在我的第二个管道上浪费了很多时间,因为当我将它们用于多个作业时,我目前不缓存这些文件。因此,鉴于此,我试图在本地缓存 s3 文件。
我做了一些研究,发现可以使用s3fs或fsspec 。到目前为止,我可以使用 s3fs 从 s3 下载和打开文件,但我不确定如何在本地缓存它。
正如您在上面的代码中看到的,我正在从 s3 打开一个文件,然后将其读取到数据帧中。现在我想知道是否有一个参数或我可以传递的东西,以便这个文件被缓存。
当然,另一种方法是我可以检查文件是否存在于某个路径中,如果存在则使用该路径,如果不存在则下载它,但我觉得必须有更好的缓存方法。我对任何和所有建议持开放态度。
python - 使用 s3fs 下载文件
我正在尝试使用 s3fs 库从 s3 存储桶下载 csv 文件。我注意到使用 pandas 编写新的 csv 以某种方式改变了数据。所以我想直接以原始状态下载文件。
该文档有下载功能,但我不明白如何使用它:
download(self, rpath, lpath[, recursive])
:Alias of FilesystemSpec.get.
这是我尝试过的:
botocore - s3fs 的下一个版本计划何时发布
我尝试使用 0.4.2 s3fs pip 模块,移动大于 5GB 的文件失败并出现写入失败错误。
0.4.2 版本的 s3fs pip 模块存在问题,该问题已在 master 中修复。计划下一个版本何时发布,以便我可以使用此功能。
我可以直接使用master build吗?
python - 使用 Python 通过流将数据从 S3 传输到 FTP 服务器
使用 Python,我想将匹配模式的文件sample1
从 AWS S3 直接复制到 FTP 服务器,而无需下载到本地临时位置。我尝试了以下操作:
我越来越:
关于如何实现这一目标的任何建议?谢谢!
python - Pandas pd.read_csv(s3_path) 失败并显示“TypeError:'coroutine' object is not subscriptable”
我在 Amazon EMR 集群中运行一个 spark 应用程序,从几天前开始,每当我尝试使用 pandas 从 S3 读取文件时都会收到以下错误。我添加了引导操作来安装 pandas、fsspec 和 s3fs。
代码:
错误日志:
s3fs是否存在问题,因为这和 pandas 似乎是唯一收到更新的软件包,但我在 pandas 的变更日志中找不到与此相关的任何内容?
pandas - 我是否需要检查完整性使用 pandas 从 s3 上传和下载文件?
我使用 pandas 以以下样式从 s3 上传和下载文件(pandas 在后台使用 s3fs)
如果文件很大,通常会担心下载(或上传)不完整并且处理了部分文件。
我需要在这里执行一些 md5 检查以确保数据的完整性吗?或者它已经被 s3fs 处理了?
amazon-s3 - 无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件
我正在使用 Pyspark 2.4.4。
我想将 s3 存储桶中的一些镶木地板文件加载到 spark 数据框中,并且我想一次读取所有这些文件。
我一直在寻找如何在这些链接中做到这一点:
- 如何从 S3 读取镶木地板数据以触发 Python 数据框?
- 无法使用 spark 从 s3 存储桶中读取数据
- https://gist.github.com/asmaier/5768c7cda3620901440a62248614bbd0
我尝试了多种方式,但无法加载文件,例如:
我也试过:
但我有这个错误:
我知道路径是正确的,因为使用 das 我能够加载数据:`
python - 预处理图像后将图像写入 s3fs.S3FileSystem
我目前正在从我的学校系统访问一个 s3 存储桶。
为了连接,我使用了以下内容:
我可以从上面定义的 s3 存储桶中检索图像并使用预处理它们
要将生成的图像 <image_eq> 保存在本地,只需
但是,如何将生成的图像保存/写入 s3fs 文件系统?
python - pytest 如何模拟 s3fs.S3FileSystem 打开文件
我正在尝试模拟在 S3 存储桶中打开文件的调用。我拥有的代码是:
我在 pytest 中的模拟是:
但是在运行测试时,我得到了错误:
知道为什么吗?