8

我现在正在为此烦恼。我是这个parquet文件的新手,我遇到了很多问题。

OSError: Passed non-file path: \datasets\proj\train\train.parquet每次尝试从中创建一个错误时,都会引发一个错误df

我试过这个: pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas()od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')

我还更改了数据集所在驱动器的驱动器号,它是一样的!

所有引擎都一样。

请帮忙!

4

2 回答 2

10

这可能是 Arrow 文件路径处理的问题。您可以改为传入一个已经打开的文件:

import pandas as pd

with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
    df = pd.read_parquet(f, engine='pyarrow')
于 2019-03-14T14:41:56.400 回答
0

尝试使用 fastparquet 作为引擎,为我工作。

engine = "fastparquet"
于 2020-09-02T11:18:46.240 回答