python - 如何合并大部分重复的行

Question

我的一些数据看起来像：

date, name, value1, value2, value3, value4
1/1/2001,ABC,1,1,,
1/1/2001,ABC,,,2,
1/1/2001,ABC,,,,35

我正在努力达到可以跑步的地步

data.set_index(['date', 'name'])

但是，按照原样的数据，当然有重复项（如上所示），所以我不能这样做（而且我不想要一个有重复项的索引，我不能简单地 drop_duplicates()，因为这会丢失数据）。

如果它们可以基于 NaN 的某些值成功收敛（类似于 combine_first() 的行为），我希望能够将具有相同 [日期，名称] 值的行强制为单行。例如，上面将结束于

date, name, value1, value2, value3, value4
1/1/2001,ABC,1,1,2,35

如果两个值不同且一个不是 NaN，则不应将两行收敛（这可能是我需要跟进的错误）。

（为了扩展上面的例子，实际上可能有任意数量的行——给定任意数量的列——应该能够收敛到一行。）

这感觉像是一个应该可以通过 pandas 解决的问题，但我无法找到一个优雅的解决方案。

score 18 · Accepted Answer

假设您有一些函数combine_it，给定一组具有重复值的行，返回单行。首先，按date和分组name：

grouped = data.groupby(['date', 'name'])

然后只需应用聚合函数并繁荣你就完成了：

result = grouped.agg(combine_it)

您还可以通过传递aggdict 为不同的列提供不同的聚合函数。

score 1 · Accepted Answer

如果您没有数字字段值，则使用 count、min、sum 等进行聚合既不可能也不明智。尽管如此，您仍然可能希望根据一个或多个主键将重复记录折叠为单个记录（例如）。

# Firstly, avoid Nan values in the columns you are grouping on!
df[['col1', 'col2']] =  df[['col1', 'col2']].fillna('null')


  # Define your own customized operation in pandas agg() function
df = df.groupby(['col1', 'col2']).agg({'SEARCH_TERM':lambda x: ', '.join(tuple(x.tolist())),

                                     'HITS_CONTENT':lambda x: ', '.join(tuple(x.tolist()))}
                                   )

按一个或多个列分组并折叠值，首先将它们转换为列表，然后转换为元组，最后转换为字符串。如果您愿意，您也可以将它们作为列表或元组存储在每个字段中，或者与 agg 一起应用。函数和字典对不同列的操作非常不同。

score 1 · Accepted Answer

由于您的按列值不会重复，因此您可以使用如下agg函数的技巧：

data.groupby(['date', 'name']).agg('sum')

score 0 · Accepted Answer

df1 = df.groupby(["date", "name"])
df1 = df1.apply(lambda x: x.ffill().bfill()).drop_duplicates()
print(df1.head())

       date name  value1  value2  value3  value4
0  1/1/2001  ABC     1.0     1.0     2.0    35.0

根据这个答案：https ://stackoverflow.com/a/45599151/1154981

python - 如何合并大部分重复的行

4 回答 4

Related

Reference