问题标签 [python-s3fs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 python 中使用 pyarrow 从 S3 读取分区镶木地板文件
我正在寻找使用 python 从 s3 中读取多个分区目录的数据的方法。
data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number=2/cur_date=27-12-2012/asdsdfsd0324324.snappy.parquet
pyarrow 的 ParquetDataset 模块具有从分区读取的能力。所以我尝试了以下代码:
它抛出了以下错误:
根据 pyarrow 的文档,我尝试使用 s3fs 作为文件系统,即:
这会引发以下错误:
我仅限于使用 ECS 集群,因此spark/pyspark 不是一个选项。
有没有一种方法可以轻松地从 s3 中的此类分区目录中的 python 中轻松读取镶木地板文件?我觉得列出所有目录然后阅读并不是这个链接中建议的好习惯。我需要将读取的数据转换为 pandas 数据帧以进行进一步处理,因此更喜欢与 fastparquet 或 pyarrow 相关的选项。我也对 python 中的其他选项持开放态度。
python - S3FS python,凭证内联
我正在尝试使用 python s3fs 读取 S3 AWS 中的文件。
我找不到将凭证(访问密钥 + 秘密)放入 s3fs 代码的代码。
谁能帮助我如何设置此信息以及 s3fs 代码。
我目前在 Windows 10 上。
python - 如何使用具有特定 AWS 配置文件的 dask 从 s3 读取镶木地板文件
如何使用dask
特定的 AWS 配置文件(存储在凭证文件中)读取 s3 上的镶木地板文件。Dask 使用s3fs
which 使用boto
. 这是我尝试过的:
python - 熊猫数据帧上的 s3fs gzip 压缩
我正在尝试使用s3fs库和 pandas 在 S3 上将数据帧编写为 CSV 文件。尽管有文档,但恐怕 gzip 压缩参数不适用于 s3fs。
此代码将数据框保存为 S3 中的新对象,但保存为纯 CSV,而不是 gzip 格式。另一方面,使用此压缩参数的读取功能可以正常工作。
写问题的建议/替代方案?先感谢您!。
python - 在 S3 中用 pyarrow 覆盖镶木地板文件
我正在尝试用 S3 中的 pyarrow 覆盖我的镶木地板文件。我已经看过文档,但没有找到任何东西。
这是我的代码:
mode = "overwrite"
write_to_dataset 函数中是否有类似选项?
amazon-s3 - dask.s3fs 是否真的使用缓存?
当您调用S3FileSystem().open(..., fill_cache=True)
它时,它看起来仍然进入 S3,仍然进行 ssl 握手等。这是它不缓存的预期行为吗?
python-3.x - Python AWS S3FS API:手动设置代理服务器
我无法为 S3FS Python API 设置代理服务器。由于 S3FS 的 Config 类是从 botocore 导入的,因此没有关于它的 S3FS 文档。所以,我已经阅读了这个问题以及botocore 文档。
但是,我无法让 botocore Config 类与 S3FS 一起使用。
我努力了:
我也试过:
我也尝试为 http 设置相同的代理。代理在这台计算机上工作正常,我已经从命令行成功测试了几次。
我总是收到连接超时错误消息:
ConnectTimeoutError:端点 URL 上的连接超时:....
任何建议表示赞赏。谢谢
amazon-web-services - 如果我使用 s3fs 安装了 s3 存储桶,如何提供静态文件?
我已经将我的一个存储桶安装到我的服务器上,我可以访问和写入文件,但现在我希望播放文件。我已经编写了一个小的 api,它从我的服务器中的 s3 存储桶的安装路径返回静态文件
但它没有播放,它在控制台中给出 500 错误?请为此提出替代方案。任何帮助,将不胜感激。
python - 如何将 S3 存储桶挂载为本地文件系统?
我有一个Jupiter-notebook
在 AWS 上运行的 python 应用程序。我将 a 加载C-library
到我的 python 代码中,该代码需要一个文件的路径。我想从 S3 存储桶访问这个文件。
我尝试使用 s3fs:
usings3.ls('..')
列出了我所有的存储桶文件...到目前为止还可以。但是,我正在使用的库实际上应该在我无法访问的地方使用 s3 变量。我只能将路径传递给 c 库。
有没有办法以某种方式挂载 s3 存储桶,我不必调用
s3.open()
,并且可以调用open(/path/to/s3)
隐藏在某个地方的 s3 存储桶真的作为本地文件系统挂载?
我认为它应该在不使用 s3 的情况下像这样工作。因为我无法更改我在内部使用的库来使用 s3 变量...
还是我做错了?
iam 使用的 c 库在 python 中作为 DLL 加载,我调用一个函数:
我必须将路径传递s3
到库 OpenFile 函数中。
amazon-s3 - 记录由 pyarrow 在 S3 上创建的 parquet 文件名
我们正在使用 pyarrow 将数据附加到存储在 S3(分区)中的现有 parquet 数据集。这每小时在 AWS lambda 上运行几次。一个最小的例子是:
结果,将根据内部数据值将许多 parquet 文件写入 S3。我们的目标是通过输出结果文件名(S3 密钥)来跟踪哪些文件已写入文件系统。
有什么方法可以捕获由pyarrow
or编写的实际文件名s3fs
?Parquet 文件名是根据计算的哈希名称任意命名的,我没有看到提到的两个包的任何日志记录功能。