问题标签 [fsspec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
658 浏览

python - 如何使用 fsspec+adlfs 加快从 adl:// 读取 CSV/Parquet 文件的速度?

我在 Azure Data Lake 中有一个数 GB 的 CSV 文件。使用 Dask,我可以在一分钟内读取此文件,如下所示:

但是,我不想将它读入 Dask 或 Pandas DataFrame——我想直接访问底层文件。(目前它是 CSV,但我也希望能够处理 Parquet 文件。)所以我也尝试使用adlfs 0.2.0

在与 Dask 进程相同的时间内,此方法仅读取了 0.1% 的输入。

我尝试过使用fsspec' 缓存,认为这会在初始缓存完成后加快访问速度:

是否有一种高效的方法可以远程读取 CSV(以及 Parquet)作为普通的 Python 文件句柄,而无需首先加载为 Dask DataFrame?

0 投票
0 回答
157 浏览

python - Python 包 fsspec 可以读取 SSH 配置吗?

我想在 Python 中访问远程 SSH 服务器文件,发现fsspec. 但是,似乎很少有代码使用示例。

特别是,我可以通过在函数中指定所有 SSH 配置选项来连接: fsspec.filesystem('sftp', host='XXX.XXX.XXX.XXX', port=XXX, username='XXX', password='XXX') 但是,我想像在控制台上一样简单地连接fsspec.filesystem('sftp', host='nickname')sftp nickname我已经在.ssh/config. 这既是为了方便,也是因为我不想用纯文本解析我的密码。

我已经阅读了 API 文档(https://filesystem-spec.readthedocs.io/en/latest/api.html)并进行了一些搜索,但还没有找到方法。请问有没有人可以指点我的方向?

非常感谢!

0 投票
1 回答
316 浏览

python-xarray - getting KeyError '.zmetadata' when opening remote zarr store

Trying to read in a zarr store from s3 using xarray. Getting a Key Error. Any thoughts

I can open it locally ok if I download it first:

Here's the Traceback associated with the top command

0 投票
1 回答
256 浏览

python-xarray - 远程 zarr 存储上的 open_mfdataset() 给出 zarr.errors.GroupNotFoundError

我正在寻找使用阅读远程 zarr 商店xarray.open_mfdataset()

我得到一个zarr.errors.GroupNotFoundError: group not found at path ''. 追溯在底部。

我可以使用打开它xr.open_zarr

如果我要在本地下载 zarr 商店,它可以正常工作

open_mfdataset远程 zarr 商店的引用

0 投票
1 回答
224 浏览

python-xarray - 打开具有许多组的远程 zarr 存储并使用 xarray 保持坐标

我想阅读https://hrrrzarr.s3.amazonaws.com/index.html#sfc/20210208/20210208_00z_anl.zarr/的远程 zarr 商店。zarr 商店的信息位于https://mesowest.utah.edu/html/hrrr/zarr_documentation/zarrFileVariables.html

我能够读取一个变量,但它似乎没有捕获与变量关联的坐标或属性(我很可能缺少 kwargs to open_mfdatasetor open_zarr)。因为有不同级别的嵌套,我不确定通过的正确路径是什么

0 投票
1 回答
706 浏览

python-xarray - xarray 使用 cfgrib 在 s3 上读取远程 grib 文件

crgrib 引擎可以处理读取远程文件吗?根据马丁杜兰特的评论,它看起来不像(https://github.com/ecmwf/cfgrib/issues/198#issuecomment-772852412

在 s3 上托管了一个小的 grib 文件:https ://mf-nwp-models.s3.amazonaws.com/index.html#arpege-world/v2/2021-02-16/00/UGRD/10m/ (注意不要点击文件,因为它会下载)。

当我尝试阅读它时,sf3s我得到

0 投票
1 回答
519 浏览

python - 使用 geopandas 从 S3 读取文件地理数据库的驱动程序错误

我正在尝试使用 geopandas python 库将文件地理数据库文件读入地理数据框。地理数据库文件位于 S3 上,因此我正在使用fssspec它来读取它,但出现错误:

它可以读取geojson文件:

这会导致错误:

这是错误回溯:

另一个潜在的线索: 我可以通过简单地让它工作:

但仅在作为存储桶访问策略一部分的机器上。我想要的是使用存储在my-profile配置文件中的 AWS 凭证从任何机器访问数据。

不幸的是,我无法提供重现错误的方法,因为我在云上做所有事情。它在本地运行良好...

0 投票
1 回答
145 浏览

python-xarray - 如何在 xarray 的后端添加 fsspec.open_local

遵循 Q here xarray 使用 cfgrib 读取 s3 上的远程 grib 文件

我将如何转换以下代码以在backend_kwargsxarray 的open_dataset.

但得到ERROR:cfgrib.messages:Can't create file 'simplecache::s3://mf-nwp-models/arpege-world/v2/2021-02-16/00/UGRD/10m/0h.grib2.90c91.idx'

0 投票
1 回答
70 浏览

python - 将 entry_points 添加到正在安装的包中的 setuptools

我有一个 python 包fsspec。该库提供了一种注册外部文件系统(后端集成)的方法。注册所需文件系统的一种方法是将其添加到 setuptools 中的 entry_points。

为了完成任务,我们可以在 setup.py 中手动添加 entry_points,然后安装包。但我正在寻找的是一种以编程方式在 fsspec 包的安装前/安装后进行条目的方法。

0 投票
0 回答
276 浏览

pandas - 在 pandas.read_parquet 中使用 AWS_PROFILE

我正在本地测试它,我有一个 ~/.aws/config 文件。

~/.aws/config 看起来像:

我还有一个 AWS_PROFILE 环境变量设置为“a”。

我想读取一个文件,使用 pandas 可以通过配置文件 b 访问该文件。

我可以通过以下方式访问它s3fs

但是,如果我尝试使用 storage_options 将其传递给 pd.read_parquet,我会得到一个PermissionError: Forbidden.

下面的完整追溯

注意:有一个与此有些相关但没有帮助的老问题:How to read parquet file from s3 using dask with specific AWS profile