pandas - 如何在 dask 数据框中使用级别值进行索引？

Question

从数据集初始值的过滤步骤中，我有一个更大数据集的索引子集，形式为

indices = pandas_DataFrame_of_initial_values[my_subset].index.get_level_values(0)

这些指数的形式是

Int64Index([...], dtype='int64', name='id', length=N)

有了这个，我喜欢使用索引来减少使用 Dask 的大型数据集，给定数据集为

from dask import dataframe as dd
ddf = dd.read_csv(path_to_data).set_index("id")

我试过了

ddf.loc[indices]
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

和

ddf[ddf.index.isin(indices)]
# NotImplementedError: dask.array<isin, shape=(nan,), dtype=bool, chunksize=(nan,), chunktype=numpy.ndarray>

和

ddf[ddf.index.isin(indices.compute())]
# ValueError: Item wrong length 236644 instead of 0.

如何在更大的数据集上实际使用索引子集？

score 0 · Accepted Answer

我刚刚发现该Int64index类型有一个to_list方法，并且使用该loc属性的选择有效：

ddf.loc[indices.to_list()].compute()

1 回答 1