我正在使用一个数据集,其中包含有关反人口贩运组织的信息。组织由组织名称或组织主页的 Web 地址标识。我想根据具体情况有条件地折叠此数据框,以便留下一组唯一的标识符(对于我的数据,组织名称或组织的网址)对于每个案例,以及这些案例的大约 1000 多个数字属性,这些数字属性是在崩溃之前标识符关联的行的最高或最低值。为了举例说明这一点,我想转:
> df1
x y z
Item1 0 3
Item1 1 4
Item2 1 2
Item3 1 3
Item2 1 5
Item3 1 2
Item4 0 2
进入类似的东西
> df2
x y z
Item1 1 3
Item2 1 2
Item3 1 2
Item4 0 2
当然,在这个例子中,我想保留 Var2 的最大值和 Var3 的最小值,并且只保留唯一的 Var1 值。
任何人都可以建议一种系统的方法来为大型数据集执行此操作吗?在此先感谢您的帮助!