问题标签 [fsspec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 fsspec+adlfs 加快从 adl:// 读取 CSV/Parquet 文件的速度?
我在 Azure Data Lake 中有一个数 GB 的 CSV 文件。使用 Dask,我可以在一分钟内读取此文件,如下所示:
但是,我不想将它读入 Dask 或 Pandas DataFrame——我想直接访问底层文件。(目前它是 CSV,但我也希望能够处理 Parquet 文件。)所以我也尝试使用adlfs 0.2.0:
在与 Dask 进程相同的时间内,此方法仅读取了 0.1% 的输入。
我尝试过使用fsspec
' 缓存,认为这会在初始缓存完成后加快访问速度:
是否有一种高效的方法可以远程读取 CSV(以及 Parquet)作为普通的 Python 文件句柄,而无需首先加载为 Dask DataFrame?
python - Python 包 fsspec 可以读取 SSH 配置吗?
我想在 Python 中访问远程 SSH 服务器文件,发现fsspec
. 但是,似乎很少有代码使用示例。
特别是,我可以通过在函数中指定所有 SSH 配置选项来连接:
fsspec.filesystem('sftp', host='XXX.XXX.XXX.XXX', port=XXX, username='XXX', password='XXX')
但是,我想像在控制台上一样简单地连接fsspec.filesystem('sftp', host='nickname')
,sftp nickname
我已经在.ssh/config
. 这既是为了方便,也是因为我不想用纯文本解析我的密码。
我已经阅读了 API 文档(https://filesystem-spec.readthedocs.io/en/latest/api.html)并进行了一些搜索,但还没有找到方法。请问有没有人可以指点我的方向?
非常感谢!
python-xarray - getting KeyError '.zmetadata' when opening remote zarr store
Trying to read in a zarr store from s3 using xarray. Getting a Key Error. Any thoughts
I can open it locally ok if I download it first:
Here's the Traceback associated with the top command
python-xarray - 远程 zarr 存储上的 open_mfdataset() 给出 zarr.errors.GroupNotFoundError
我正在寻找使用阅读远程 zarr 商店xarray.open_mfdataset()
我得到一个zarr.errors.GroupNotFoundError: group not found at path ''
. 追溯在底部。
我可以使用打开它xr.open_zarr
如果我要在本地下载 zarr 商店,它可以正常工作
open_mfdataset
远程 zarr 商店的引用
python-xarray - 打开具有许多组的远程 zarr 存储并使用 xarray 保持坐标
我想阅读https://hrrrzarr.s3.amazonaws.com/index.html#sfc/20210208/20210208_00z_anl.zarr/的远程 zarr 商店。zarr 商店的信息位于https://mesowest.utah.edu/html/hrrr/zarr_documentation/zarrFileVariables.html
我能够读取一个变量,但它似乎没有捕获与变量关联的坐标或属性(我很可能缺少 kwargs to open_mfdataset
or open_zarr
)。因为有不同级别的嵌套,我不确定通过的正确路径是什么
python-xarray - xarray 使用 cfgrib 在 s3 上读取远程 grib 文件
crgrib 引擎可以处理读取远程文件吗?根据马丁杜兰特的评论,它看起来不像(https://github.com/ecmwf/cfgrib/issues/198#issuecomment-772852412)
在 s3 上托管了一个小的 grib 文件:https ://mf-nwp-models.s3.amazonaws.com/index.html#arpege-world/v2/2021-02-16/00/UGRD/10m/ (注意不要点击文件,因为它会下载)。
当我尝试阅读它时,sf3s
我得到
python - 使用 geopandas 从 S3 读取文件地理数据库的驱动程序错误
我正在尝试使用 geopandas python 库将文件地理数据库文件读入地理数据框。地理数据库文件位于 S3 上,因此我正在使用fssspec
它来读取它,但出现错误:
它可以读取geojson文件:
这会导致错误:
这是错误回溯:
另一个潜在的线索: 我可以通过简单地让它工作:
但仅在作为存储桶访问策略一部分的机器上。我想要的是使用存储在my-profile
配置文件中的 AWS 凭证从任何机器访问数据。
不幸的是,我无法提供重现错误的方法,因为我在云上做所有事情。它在本地运行良好...
python-xarray - 如何在 xarray 的后端添加 fsspec.open_local
遵循 Q here xarray 使用 cfgrib 读取 s3 上的远程 grib 文件
我将如何转换以下代码以在backend_kwargs
xarray 的open_dataset
.
至
但得到ERROR:cfgrib.messages:Can't create file 'simplecache::s3://mf-nwp-models/arpege-world/v2/2021-02-16/00/UGRD/10m/0h.grib2.90c91.idx'
pandas - 在 pandas.read_parquet 中使用 AWS_PROFILE
我正在本地测试它,我有一个 ~/.aws/config 文件。
~/.aws/config 看起来像:
我还有一个 AWS_PROFILE 环境变量设置为“a”。
我想读取一个文件,使用 pandas 可以通过配置文件 b 访问该文件。
我可以通过以下方式访问它s3fs
:
但是,如果我尝试使用 storage_options 将其传递给 pd.read_parquet,我会得到一个PermissionError: Forbidden
.
下面的完整追溯
注意:有一个与此有些相关但没有帮助的老问题:How to read parquet file from s3 using dask with specific AWS profile