python - 使用 dask read_parquet 方法过滤会产生不需要的结果

Question

我正在尝试使用dask read_parquet方法和filterskwarg 读取镶木地板文件。但是它有时不会根据给定条件进行过滤。

dates示例：使用列创建和保存数据框

import pandas as pd
import numpy as np
import dask.dataframe as dd

nums  = range(1,6)
dates = pd.date_range('2018-07-01', periods=5, freq='1d')
df = pd.DataFrame({'dates':dates, 'nums': nums})

ddf = dd.from_pandas(df, npartitions=3).to_parquet('test_par', engine = 'fastparquet')

当我从文件夹中读取并过滤dates列时，'test_par'它似乎不起作用

filters=[('dates', '>', np.datetime64('2018-07-04'))]
df  = dd.read_parquet('test_par', engine='fastparquet', filters=filters).compute()

正如您在输出中看到的那样，2018-07-03并且2018-07-04存在。

+-------+------------+------+
|       | dates      | nums |
+-------+------------+------+
| index |            |      |
+-------+------------+------+
| 2     | 2018-07-03 | 3    |
+-------+------------+------+
| 3     | 2018-07-04 | 4    |
+-------+------------+------+
| 4     | 2018-07-05 | 5    |
+-------+------------+------+

难道我做错了什么？还是我应该在 github 上报告这个？

score 9 · Accepted Answer

filters关键字是按行分组的操作（行分组是一组数据行的拼花术语，如数据帧的分区）。它不在分区内进行任何过滤。

当您使用时filters，您将排除分区，其中根据文件中的最大/最小统计信息，给定分区中没有可以匹配给定过滤器的行。例如，如果您指定 x>5，则 min=2,max=4 的分区将被排除，但 min=2,max=6 的分区不会，即使后者仅包含满足筛选。

要过滤数据，您仍应使用通常的语法

df[df.dates > np.datetime64('2018-07-04')]

除了过滤器之外，还可以将过滤器的使用视为可选优化。没有它，Dask 甚至必须读取没有好的数据的分区，然后应用条件，导致这些分区没有结果。如果可能，最好不要加载它们。

python - 使用 dask read_parquet 方法过滤会产生不需要的结果

1 回答 1

Related

Reference