问题标签 [python-s3fs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
63969 浏览

python - 如何在 python 中使用 pyarrow 从 S3 读取分区镶木地板文件

我正在寻找使用 python 从 s3 中读取多个分区目录的数据的方法。

data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number=2/cur_date=27-12-2012/asdsdfsd0324324.snappy.parquet

pyarrow 的 ParquetDataset 模块具有从分区读取的能力。所以我尝试了以下代码:

它抛出了以下错误:

根据 pyarrow 的文档,我尝试使用 s3fs 作为文件系统,即:

这会引发以下错误:

我仅限于使用 ECS 集群,因此spark/pyspark 不是一个选项

有没有一种方法可以轻松地从 s3 中的此类分区目录中的 python 中轻松读取镶木地板文件?我觉得列出所有目录然后阅读并不是这个链接中建议的好习惯。我需要将读取的数据转换为 pandas 数据帧以进行进一步处理,因此更喜欢与 fastparquet 或 pyarrow 相关的选项。我也对 python 中的其他选项持开放态度。

0 投票
1 回答
9085 浏览

python - S3FS python,凭证内联

我正在尝试使用 python s3fs 读取 S3 AWS 中的文件。

我找不到将凭证(访问密钥 + 秘密)放入 s3fs 代码的代码。

谁能帮助我如何设置此信息以及 s3fs 代码。

我目前在 Windows 10 上。

0 投票
1 回答
5517 浏览

python - 如何使用具有特定 AWS 配置文件的 dask 从 s3 读取镶木地板文件

如何使用dask特定的 AWS 配置文件(存储在凭证文件中)读取 s3 上的镶木地板文件。Dask 使用s3fswhich 使用boto. 这是我尝试过的:

0 投票
2 回答
2045 浏览

python - 熊猫数据帧上的 s3fs gzip 压缩

我正在尝试使用s3fs库和 pandas 在 S3 上将数据帧编写为 CSV 文件。尽管有文档,但恐怕 gzip 压缩参数不适用于 s3fs。

此代码将数据框保存为 S3 中的新对象,但保存为纯 CSV,而不是 gzip 格式。另一方面,使用此压缩参数的读取功能可以正常工作。

写问题的建议/替代方案?先感谢您!。

0 投票
2 回答
3039 浏览

python - 在 S3 中用 pyarrow 覆盖镶木地板文件

我正在尝试用 S3 中的 pyarrow 覆盖我的镶木地板文件。我已经看过文档,但没有找到任何东西。

这是我的代码:

mode = "overwrite"write_to_dataset 函数中是否有类似选项?

0 投票
1 回答
118 浏览

amazon-s3 - dask.s3fs 是否真的使用缓存?

当您调用S3FileSystem().open(..., fill_cache=True)它时,它看起来仍然进入 S3,仍然进行 ssl 握手等。这是它不缓存的预期行为吗?

0 投票
1 回答
775 浏览

python-3.x - Python AWS S3FS API:手动设置代理服务器

我无法为 S3FS Python API 设置代理服务器。由于 S3FS 的 Config 类是从 botocore 导入的,因此没有关于它的 S3FS 文档。所以,我已经阅读了这个问题以及botocore 文档

但是,我无法让 botocore Config 类与 S3FS 一起使用。

我努力了:

我也试过:

我也尝试为 http 设置相同的代理。代理在这台计算机上工作正常,我已经从命令行成功测试了几次。

我总是收到连接超时错误消息:

ConnectTimeoutError:端点 URL 上的连接超时:....

任何建议表示赞赏。谢谢

0 投票
0 回答
66 浏览

amazon-web-services - 如果我使用 s3fs 安装了 s3 存储桶,如何提供静态文件?

我已经将我的一个存储桶安装到我的服务器上,我可以访问和写入文件,但现在我希望播放文件。我已经编写了一个小的 api,它从我的服务器中的 s3 存储桶的安装路径返回静态文件

但它没有播放,它在控制台中给出 500 错误?请为此提出替代方案。任何帮助,将不胜感激。

0 投票
2 回答
10039 浏览

python - 如何将 S3 存储桶挂载为本地文件系统?

我有一个Jupiter-notebook在 AWS 上运行的 python 应用程序。我将 a 加载C-library到我的 python 代码中,该代码需要一个文件的路径。我想从 S3 存储桶访问这个文件。

我尝试使用 s3fs:

usings3.ls('..')列出了我所有的存储桶文件...到目前为止还可以。但是,我正在使用的库实际上应该在我无法访问的地方使用 s3 变量。我只能将路径传递给 c 库。

有没有办法以某种方式挂载 s3 存储桶,我不必调用 s3.open(),并且可以调用open(/path/to/s3)隐藏在某个地方的 s3 存储桶真的作为本地文件系统挂载?

我认为它应该在不使用 s3 的情况下像这样工作。因为我无法更改我在内部使用的库来使用 s3 变量...

还是我做错了?

iam 使用的 c 库在 python 中作为 DLL 加载,我调用一个函数:

我必须将路径传递s3到库 OpenFile 函数中。

0 投票
2 回答
794 浏览

amazon-s3 - 记录由 pyarrow 在 S3 上创建的 parquet 文件名

我们正在使用 pyarrow 将数据附加到存储在 S3(分区)中的现有 parquet 数据集。这每小时在 AWS lambda 上运行几次。一个最小的例子是:

结果,将根据内部数据值将许多 parquet 文件写入 S3。我们的目标是通过输出结果文件名(S3 密钥)来跟踪哪些文件已写入文件系统。

有什么方法可以捕获由pyarrowor编写的实际文件名s3fs?Parquet 文件名是根据计算的哈希名称任意命名的,我没有看到提到的两个包的任何日志记录功能。