在 Pythonpandas
中,我可以轻松地在 DataFrame 中删除重复项:
df1.drop_duplicates(['Service Date', 'Customer Number'], inplace=True)
C# 中是否有任何东西,或者Deedle
就这么简单快速?还是我需要遍历整个帧(来自大型 CSV 文件)以删除重复项?
我正在使用的数据是从一个包含大约 40 列和 12k 行的大型 CSV 文件导入的。对于每个日期,客户编号都有多个条目。我需要在每个日期消除重复的客户编号行(只留下一个唯一的)。
这是一些简化的数据,使用 DATE 和 RECN 作为用于去重的列:
NAME, TYPE, DATE, RECN, COMM
Kermit, Frog, 06/30/14, 1, 1test
Kermit, Frog, 06/30/14, 1, 2test
Ms. Piggy, Pig, 07/01/14, 2, 1test
Fozzy, Bear, 06/29/14, 3, 1test
Kermit, Frog, 07/02/14, 1, 3test
Kermit, Frog, 07/02/14, 1, 4test
Kermit, Frog, 07/02/14, 1, 5test
Ms. Piggy, Pig, 07/02/14, 2, 3test
Fozzy, Bear, 07/02/14, 3, 2test
Ms. Piggy, Pig, 07/02/14, 2, 2test