问题标签 [python-s3fs]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

63 问题

0 投票

4 回答

63969 浏览

python - 如何在 python 中使用 pyarrow 从 S3 读取分区镶木地板文件

我正在寻找使用 python 从 s3 中读取多个分区目录的数据的方法。

data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquet data_folder/serial_number=2/cur_date=27-12-2012/asdsdfsd0324324.snappy.parquet

pyarrow 的 ParquetDataset 模块具有从分区读取的能力。所以我尝试了以下代码：

它抛出了以下错误：

根据 pyarrow 的文档，我尝试使用 s3fs 作为文件系统，即：

这会引发以下错误：

我仅限于使用 ECS 集群，因此spark/pyspark 不是一个选项。

有没有一种方法可以轻松地从 s3 中的此类分区目录中的 python 中轻松读取镶木地板文件？我觉得列出所有目录然后阅读并不是这个链接中建议的好习惯。我需要将读取的数据转换为 pandas 数据帧以进行进一步处理，因此更喜欢与 fastparquet 或 pyarrow 相关的选项。我也对 python 中的其他选项持开放态度。

python parquet pyarrow fastparquet python-s3fs

2017-07-13T13:56:36.760

0 投票

1 回答

9085 浏览

python - S3FS python，凭证内联

我正在尝试使用 python s3fs 读取 S3 AWS 中的文件。

我找不到将凭证（访问密钥 + 秘密）放入 s3fs 代码的代码。

谁能帮助我如何设置此信息以及 s3fs 代码。

我目前在 Windows 10 上。

python amazon-web-services python-s3fs

2017-08-15T15:54:42.737

0 投票

1 回答

5517 浏览

python - 如何使用具有特定 AWS 配置文件的 dask 从 s3 读取镶木地板文件

如何使用dask特定的 AWS 配置文件（存储在凭证文件中）读取 s3 上的镶木地板文件。Dask 使用s3fswhich 使用boto. 这是我尝试过的：

python amazon-s3 boto3 dask python-s3fs

2018-01-22T20:04:17.423

0 投票

2 回答

2045 浏览

python - 熊猫数据帧上的 s3fs gzip 压缩

我正在尝试使用s3fs库和 pandas 在 S3 上将数据帧编写为 CSV 文件。尽管有文档，但恐怕 gzip 压缩参数不适用于 s3fs。

此代码将数据框保存为 S3 中的新对象，但保存为纯 CSV，而不是 gzip 格式。另一方面，使用此压缩参数的读取功能可以正常工作。

写问题的建议/替代方案？先感谢您！。

python amazon-s3 python-s3fs

2018-05-15T12:57:57.903

0 投票

2 回答

3039 浏览

python - 在 S3 中用 pyarrow 覆盖镶木地板文件

我正在尝试用 S3 中的 pyarrow 覆盖我的镶木地板文件。我已经看过文档，但没有找到任何东西。

这是我的代码：

mode = "overwrite"write_to_dataset 函数中是否有类似选项？

python amazon-s3 pyarrow python-s3fs

2018-08-30T11:22:40.793

0 投票

1 回答

118 浏览

amazon-s3 - dask.s3fs 是否真的使用缓存？

当您调用S3FileSystem().open(..., fill_cache=True)它时，它看起来仍然进入 S3，仍然进行 ssl 握手等。这是它不缓存的预期行为吗？

amazon-s3 dask python-s3fs

2019-02-13T08:20:00.950

0 投票

1 回答

775 浏览

python-3.x - Python AWS S3FS API：手动设置代理服务器

我无法为 S3FS Python API 设置代理服务器。由于 S3FS 的 Config 类是从 botocore 导入的，因此没有关于它的 S3FS 文档。所以，我已经阅读了这个问题以及botocore 文档。

但是，我无法让 botocore Config 类与 S3FS 一起使用。

我努力了：

我也试过：

我也尝试为 http 设置相同的代理。代理在这台计算机上工作正常，我已经从命令行成功测试了几次。

我总是收到连接超时错误消息：

ConnectTimeoutError：端点 URL 上的连接超时：....

任何建议表示赞赏。谢谢

python-3.x amazon-web-services proxy botocore python-s3fs

2019-03-26T19:29:26.147

0 投票

0 回答

66 浏览

amazon-web-services - 如果我使用 s3fs 安装了 s3 存储桶，如何提供静态文件？

我已经将我的一个存储桶安装到我的服务器上，我可以访问和写入文件，但现在我希望播放文件。我已经编写了一个小的 api，它从我的服务器中的 s3 存储桶的安装路径返回静态文件

但它没有播放，它在控制台中给出 500 错误？请为此提出替代方案。任何帮助，将不胜感激。

amazon-web-services amazon-s3 python-s3fs

2019-10-08T22:28:19.430

0 投票

2 回答

10039 浏览

python - 如何将 S3 存储桶挂载为本地文件系统？

我有一个Jupiter-notebook在 AWS 上运行的 python 应用程序。我将 a 加载C-library到我的 python 代码中，该代码需要一个文件的路径。我想从 S3 存储桶访问这个文件。

我尝试使用 s3fs：

usings3.ls('..')列出了我所有的存储桶文件...到目前为止还可以。但是，我正在使用的库实际上应该在我无法访问的地方使用 s3 变量。我只能将路径传递给 c 库。

有没有办法以某种方式挂载 s3 存储桶，我不必调用 s3.open()，并且可以调用open(/path/to/s3)隐藏在某个地方的 s3 存储桶真的作为本地文件系统挂载？

我认为它应该在不使用 s3 的情况下像这样工作。因为我无法更改我在内部使用的库来使用 s3 变量...

还是我做错了？

iam 使用的 c 库在 python 中作为 DLL 加载，我调用一个函数：

我必须将路径传递s3到库 OpenFile 函数中。

python amazon-web-services amazon-s3 python-s3fs

2019-11-05T17:51:07.157

0 投票

2 回答

794 浏览

amazon-s3 - 记录由 pyarrow 在 S3 上创建的 parquet 文件名

我们正在使用 pyarrow 将数据附加到存储在 S3（分区）中的现有 parquet 数据集。这每小时在 AWS lambda 上运行几次。一个最小的例子是：

结果，将根据内部数据值将许多 parquet 文件写入 S3。我们的目标是通过输出结果文件名（S3 密钥）来跟踪哪些文件已写入文件系统。

有什么方法可以捕获由pyarrowor编写的实际文件名s3fs？Parquet 文件名是根据计算的哈希名称任意命名的，我没有看到提到的两个包的任何日志记录功能。

amazon-s3 parquet pyarrow apache-arrow python-s3fs

2019-12-02T12:13:32.880

1 2 3 4 5 6 7 8 9 10