3

我有两个数据框R。第一个数据帧是cumFreqDist具有相关周期的累积频率分布 ( )。数据框的第一行如下所示:

Time        cumfreq
0         0.0000000
4         0.9009009
6         1.8018018
8         7.5075075
12       23.4234234
16       39.6396396
18       53.4534535
20       58.2582583
24       75.3753754
100     100.0000000

第二个数据帧是 10000 从runif分布中抽取,使用代码:

 testData <- (runif(10000))*100

对于 中的每一行testData,我想找到相应cumfreq的 incumFreqDist并将相应的Time值添加到 中的新列中testData。因为testData是代表真实数据框的测试数据框,所以我不想排序testData

因为我正在处理累积频率,所以如果该值testData是应该返回的值是. 也就是说,我需要找到不超过该值的最接近的值,并且只返回那个值。23.30...Time8cumfreqtestData

data.table软件包已针对其他类似问题被提及,但我有限的理解是,该软件包需要在两个数据框中(转换为数据表后)中识别一个键,并且我不能假设这些testData值满足分配的要求作为一个键 - 似乎分配一个键将对数据进行排序。当我稍后在我正在做的进一步工作中设置种子时,这会给我带来问题。

4

1 回答 1

5

findInterval()非常适合:

set.seed(1);
cumFreqDist <- data.frame(Time=c(0,4,6,8,12,16,18,20,24,100), cumfreq=c(0.0000000,0.9009009,1.8018018,7.5075075,23.4234234,39.6396396,53.4534535,58.2582583,75.3753754,100.0000000) );
testData <- data.frame(x=runif(10000)*100);
testData$Time <- cumFreqDist$Time[findInterval(testData$x,cumFreqDist$cumfreq)];
head(testData,20);
##            x Time
## 1  26.550866   12
## 2  37.212390   12
## 3  57.285336   18
## 4  90.820779   24
## 5  20.168193    8
## 6  89.838968   24
## 7  94.467527   24
## 8  66.079779   20
## 9  62.911404   20
## 10  6.178627    6
## 11 20.597457    8
## 12 17.655675    8
## 13 68.702285   20
## 14 38.410372   12
## 15 76.984142   24
## 16 49.769924   16
## 17 71.761851   20
## 18 99.190609   24
## 19 38.003518   12
## 20 77.744522   24
于 2015-06-05T02:51:12.573 回答