此映射在调用head
前 100 行时有效:
ddf['val'] = ddf['myid'].map( val['val'] , meta=pd.Series(float) )
但是当我尝试保存到镶木地板时:
ddf.to_parquet('myfile.parquet',
compression='snappy',
write_index=False,
compute_kwargs={'scheduler':'threads'}
)
我收到一个错误:InvalidIndexError: Reindexing only valid with uniquely valued Index objects
。
但是检查我的索引(转换为熊猫系列后),它是独一无二的:val.index.duplicated().any()
是False
. 此外,索引与其映射到的数据框列的设置相同:myid
. 索引中没有 null、nan 或 None。索引是 int64。
更新:奇怪的是,如果我一次为原始 ddf 加载每个镶木地板文件,这不会出错。如果我一次加载多个,则会出错。