3

我有一个 csv 文件,其中一小部分是

Optimal
value     7.35-7.45  4.5-8   5.6-7.9    0
ID         V1        V2      V3         V4
1          7.1       5.5     7.6        218
10         7.8       4.8     6.3        407
50         7.12      5.2     5.4        140

(出于保密原因,数据已更改)

总共有 125 个科目和大约 50 个变量

我需要为每个变量创建值和范围之间距离的绝对值。因此,例如对于 ID 1:

V1dist = abs(7.1 - 7.35) = .25
V2dist = 0 because 4.5 < 5.5 < 8
V3dist = 0 because 5.6 < 7.6 < 7.9
V4dist = 218 because the optimal value is 0

一些值在范围内 - 它们应该为 0。有些较低,有些较高。

所以,我有两个问题:1)如何读入数据 2)如何创建新变量

我可以访问 SAS 和 R(以及 Excel,但是....)

4

1 回答 1

4

这里有一个解决方案。首先,我读取并格式化数据。我读了跳过第一行的矩阵(范围一)然后我读了一行(这可以使用 readLines 进行优化)。

dat <- read.table(text='value     7.35-7.45  4.5-8   5.6-7.9    0
ID         V1        V2      V3         V4
1          7.1       5.5     7.6        218
10         7.8       4.8     6.3        407
50         7.12      5.2     5.4        140',header=TRUE,skip=1)
mm <- as.matrix(dat[,-1])
rownames(mm) <- dat[,1]
rngs <- read.table(text='value     7.35-7.45  4.5-8   5.6-7.9    0
ID         V1        V2      V3         V4
1          7.1       5.5     7.6        218
10         7.8       4.8     6.3        407
50         7.12      5.2     5.4        140',nrows=1)
rngs <- lapply(unclass(rngs[1,-1]),
       function(x)as.numeric(unlist(strsplit(as.character(x),'-'))))
names(rngs) <- colnames(mm)

 mm
     V1  V2  V3  V4
1  7.10 5.5 7.6 218
10 7.80 4.8 6.3 407
50 7.12 5.2 5.4 140
> rngs
$V1
[1] 7.35 7.45

$V2
[1] 4.5 8.0

$V3
[1] 5.6 7.9

$V4
[1] 0

然后我将值与范围进行比较。我遍历每一列,并使用嵌套ifelse计算范围。注意我没有范围的情况,我重复相同的值。

sapply(names(rngs),function(x)
{
  vec <- mm[,x]
  inter <- rngs[[x]]
  if(length(inter)==1) inter <- rep(inter,2)
  ## within interval
  ifelse(mm[,x] < inter[2] & mm[,x] > inter[1],
         0,ifelse(mm[,x] > inter[2], mm[,x]-inter[2], inter[1]-mm[,x]))

})

     V1 V2  V3  V4
1  0.25  0 0.0 218
10 0.35  0 0.0 407
50 0.23  0 0.2 140
于 2013-06-24T19:32:16.053 回答