问题标签 [fsspec]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

18 问题

0 投票

1 回答

658 浏览

python - 如何使用 fsspec+adlfs 加快从 adl:// 读取 CSV/Parquet 文件的速度？

我在 Azure Data Lake 中有一个数 GB 的 CSV 文件。使用 Dask，我可以在一分钟内读取此文件，如下所示：

但是，我不想将它读入 Dask 或 Pandas DataFrame——我想直接访问底层文件。（目前它是 CSV，但我也希望能够处理 Parquet 文件。）所以我也尝试使用adlfs 0.2.0：

在与 Dask 进程相同的时间内，此方法仅读取了 0.1% 的输入。

我尝试过使用fsspec' 缓存，认为这会在初始缓存完成后加快访问速度：

是否有一种高效的方法可以远程读取 CSV（以及 Parquet）作为普通的 Python 文件句柄，而无需首先加载为 Dask DataFrame？

python dask fsspec

2020-03-12T00:33:00.483

0 投票

0 回答

157 浏览

python - Python 包 fsspec 可以读取 SSH 配置吗？

我想在 Python 中访问远程 SSH 服务器文件，发现fsspec. 但是，似乎很少有代码使用示例。

特别是，我可以通过在函数中指定所有 SSH 配置选项来连接： fsspec.filesystem('sftp', host='XXX.XXX.XXX.XXX', port=XXX, username='XXX', password='XXX') 但是，我想像在控制台上一样简单地连接fsspec.filesystem('sftp', host='nickname')，sftp nickname我已经在.ssh/config. 这既是为了方便，也是因为我不想用纯文本解析我的密码。

我已经阅读了 API 文档（https://filesystem-spec.readthedocs.io/en/latest/api.html）并进行了一些搜索，但还没有找到方法。请问有没有人可以指点我的方向？

非常感谢！

python ssh fsspec

2020-11-28T14:33:45.353

0 投票

1 回答

316 浏览

python-xarray - getting KeyError '.zmetadata' when opening remote zarr store

Trying to read in a zarr store from s3 using xarray. Getting a Key Error. Any thoughts

I can open it locally ok if I download it first:

Here's the Traceback associated with the top command

python-xarray zarr fsspec

2021-02-10T20:45:14.683

0 投票

1 回答

256 浏览

python-xarray - 远程 zarr 存储上的 open_mfdataset() 给出 zarr.errors.GroupNotFoundError

我正在寻找使用阅读远程 zarr 商店xarray.open_mfdataset()

我得到一个zarr.errors.GroupNotFoundError: group not found at path ''. 追溯在底部。

我可以使用打开它xr.open_zarr

如果我要在本地下载 zarr 商店，它可以正常工作

open_mfdataset远程 zarr 商店的引用

python-xarray zarr fsspec

2021-02-10T21:40:00.920

0 投票

1 回答

224 浏览

python-xarray - 打开具有许多组的远程 zarr 存储并使用 xarray 保持坐标

我想阅读https://hrrrzarr.s3.amazonaws.com/index.html#sfc/20210208/20210208_00z_anl.zarr/的远程 zarr 商店。zarr 商店的信息位于https://mesowest.utah.edu/html/hrrr/zarr_documentation/zarrFileVariables.html

我能够读取一个变量，但它似乎没有捕获与变量关联的坐标或属性（我很可能缺少 kwargs to open_mfdatasetor open_zarr）。因为有不同级别的嵌套，我不确定通过的正确路径是什么

python-xarray zarr fsspec

2021-02-11T22:11:09.113

0 投票

1 回答

706 浏览

python-xarray - xarray 使用 cfgrib 在 s3 上读取远程 grib 文件

crgrib 引擎可以处理读取远程文件吗？根据马丁杜兰特的评论，它看起来不像（https://github.com/ecmwf/cfgrib/issues/198#issuecomment-772852412）

在 s3 上托管了一个小的 grib 文件：https ://mf-nwp-models.s3.amazonaws.com/index.html#arpege-world/v2/2021-02-16/00/UGRD/10m/ （注意不要点击文件，因为它会下载）。

当我尝试阅读它时，sf3s我得到

python-xarray cfgrib fsspec

2021-02-16T17:21:15.307

0 投票

1 回答

519 浏览

python - 使用 geopandas 从 S3 读取文件地理数据库的驱动程序错误

我正在尝试使用 geopandas python 库将文件地理数据库文件读入地理数据框。地理数据库文件位于 S3 上，因此我正在使用fssspec它来读取它，但出现错误：

它可以读取geojson文件：

这会导致错误：

这是错误回溯：

另一个潜在的线索： 我可以通过简单地让它工作：

但仅在作为存储桶访问策略一部分的机器上。我想要的是使用存储在my-profile配置文件中的 AWS 凭证从任何机器访问数据。

不幸的是，我无法提供重现错误的方法，因为我在云上做所有事情。它在本地运行良好...

python amazon-s3 geopandas fsspec

2021-03-04T22:55:28.847

0 投票

1 回答

145 浏览

python-xarray - 如何在 xarray 的后端添加 fsspec.open_local

遵循 Q here xarray 使用 cfgrib 读取 s3 上的远程 grib 文件

我将如何转换以下代码以在backend_kwargsxarray 的open_dataset.

至

但得到ERROR:cfgrib.messages:Can't create file 'simplecache::s3://mf-nwp-models/arpege-world/v2/2021-02-16/00/UGRD/10m/0h.grib2.90c91.idx'

python-xarray cfgrib fsspec

2021-03-07T03:43:08.397

0 投票

1 回答

70 浏览

python - 将 entry_points 添加到正在安装的包中的 setuptools

我有一个 python 包fsspec。该库提供了一种注册外部文件系统（后端集成）的方法。注册所需文件系统的一种方法是将其添加到 setuptools 中的 entry_points。

为了完成任务，我们可以在 setup.py 中手动添加 entry_points，然后安装包。但我正在寻找的是一种以编程方式在 fsspec 包的安装前/安装后进行条目的方法。

python setuptools entry-point fsspec

2021-04-27T10:17:05.140

0 投票

0 回答

276 浏览

pandas - 在 pandas.read_parquet 中使用 AWS_PROFILE

我正在本地测试它，我有一个 ~/.aws/config 文件。

~/.aws/config 看起来像：

我还有一个 AWS_PROFILE 环境变量设置为“a”。

我想读取一个文件，使用 pandas 可以通过配置文件 b 访问该文件。

我可以通过以下方式访问它s3fs：

但是，如果我尝试使用 storage_options 将其传递给 pd.read_parquet，我会得到一个PermissionError: Forbidden.

下面的完整追溯

注意：有一个与此有些相关但没有帮助的老问题：How to read parquet file from s3 using dask with specific AWS profile

pandas amazon-s3 python-s3fs fsspec

2021-04-28T04:28:52.557

1 2 3 4 5 6 7 8 9 10