r - 在 data.table 中多次使用 :=

Question

我经常发现自己在:=同一个数据表上使用一长串链式计算。例如，像这样

test = data.table(1:10, 1:10, 1:10, 1:10)

test[, V1 := V1^2]
test[, V2 := V1*V2]
test[, V3 := V2/V3]
test[, V4 := sqrt(V3)]
test[, new := letters[V4]]

必须在每一行上写test[, ...]1) 需要更长的时间来输入（这不是我能应付的大问题）。但是，更重要的是，它也会在视觉上分散计算的流程和内容。我宁愿写类似的东西

test[, {
  V1 := V1^2
  V2 := V1*V2
  V3 := V2/V3
  V4 := sqrt(V3)
  new := letters[V4]
}]

但这会引发错误You have wrapped := with {} which is ok but then := must be the only thing inside {}。

我知道我会写

within(test, {
  V1 = V1^2
  V2 = V1*V2
  V3 = V2/V3
  V4 = sqrt(V3)
  new = letters[V4]
  })

但这失去了使用的效率:=

我尝试编写一个函数来提供这种能力

with.dt = function(dt, expressions){
  e = strsplit(expressions,'\n')
  for (i in 1:length(e)){    
    dt[, eval(parse(text = e[i]))]
  }
  dt
  }

with.dt(test, "
  V1 := V1^2;
  V2 := V1*V2;
  V3 := V2/V3;
  V4 := sqrt(V3);
  new := letters[V4];
  ")

但这不会改变 data.table 的内容

是否有任何语法允许within版本的整洁外观，同时保留按引用分配的属性:=？

score 2 · Accepted Answer

有几种不同的方法可以做到这一点。

此处使用的原始测试矩阵：

   v1 v2
1:  1  3
2:  2  4

首先，我们可以这样做：

test[,`:=`(v1 = v1^2,
          v2 = v1*v2)

输出：

v1 v2
 1  3
 4  8

或者，如果我们希望它按顺序完成，我们可以使用 Frank 的 hack。

test[, `:=`(v1 = v1 <- v1^2, v2 = v2 * v1)]

输出：

v1 v2
 1  3
 4 16

或者，类似地我们可以运行这个：

test[,c("v1","v2") := list(v1^2,v1^2*v2)]

输出：

v1 v2
 1  3
 4 16

score 1 · Accepted Answer

我们可以使用一个接受表达式列表的函数：

with.dt = function(dt, expr){
  for (j in 1:length(expr)) set(dt, , names(expr)[j], dt[, eval(expr[[j]])])
}

test = data.table(1:10, 1:10, 1:10, 1:10)
with.dt(test, expression(
  V1 = V1^2,
  V2 = V1*V2,
  V3 = V2/V3,
  V4 = sqrt(V3),
  new = letters[V4]
))

#     V1   V2  V3 V4 new
# 1:   1    1   1  1   a
# 2:   4    8   4  2   b
# 3:   9   27   9  3   c
# 4:  16   64  16  4   d
# 5:  25  125  25  5   e
# 6:  36  216  36  6   f
# 7:  49  343  49  7   g
# 8:  64  512  64  8   h
# 9:  81  729  81  9   i
#10: 100 1000 100 10   j

r - 在 data.table 中多次使用 :=

2 回答 2

Related

Reference