0

我有一个大的pandas.DataFrame(约 250 万行),有 10 列。我需要填充列noshow_label,我按列对数据进行分组event_label,如果列event_action中有一个值no_show,那么我需要粘贴,True否则我需要粘贴False。为此,我使用这种结构:

data['noshow_label'] = data.groupby('event_label')['event_action'].transform(lambda x: 'no_show' in x.values)

当我尝试启动此代码时,它引发了一个错误:

ValueError: Length mismatch: Expected axis has 2328271 elements, new values have 2328273 elements

注意:列event_action包含诸如no_show, show_widget,之类的值test_passed。列“事件标签contains labels names like123123-A”、“123123-B”...

你有什么想法来解决它吗?

4

1 回答 1

0

数据有问题,我的 DataFrame 在组列中有类似“NULL”的值,当我从样本中删除它们时,问题就消失了。

于 2019-11-17T17:25:01.087 回答