我有一个相当小的 3 列数据集(id、日期和距离),其中一些日期可能重复(否则是唯一的),因为有与该日期关联的第二个距离值。
对于那些重复的日期,我如何平均距离然后用平均值替换原始距离?
让我们使用这个数据集作为模型:
z <- data.frame(id=c(1,1,2,2,3,4),var=c(2,4,1,3,5,2))
# id var
# 1 2
# 1 4
# 2 1
# 2 3
# 3 5
# 4 2
id#1 的平均值为 3,id#2 的平均值为 2,然后将替换每个原始 var。
我检查了多个问题来解决这个问题,并找到了相关的讨论。结果,这是我到目前为止所拥有的:
# Check if any dates have two estimates (duplicate Epochs)
length(unique(Rdataset$Epoch)) == nrow(Rdataset)
# if 'TRUE' then each day has a unique data point (no duplicate Epochs)
# if 'FALSE' then duplicate Epochs exist, and the distances must be
# averaged for each duplicate Epoch
Rdataset$Distance <- ave(Rdataset$Distance, Rdataset$Epoch, FUN=mean)
Rdataset <- unique(Rdataset)
然后,通过平均和替换重复日期的距离,我希望对整个数据集执行其他功能。