3

我正在尝试使用以下代码设置以下 data.tables px & vol。(回退到缓慢的 for 循环)

a=data.table(
  date_id = rep(seq(as.Date('2013-01-01'),as.Date('2013-04-10'),'days'),5),
  px =rnorm(500,mean=50,sd=5),
  vol=rnorm(500,mean=500000,sd=150000),
  id=rep(letters[1:5],each=100)
  )

b=data.table(
  date_id=rep(seq(as.Date('2013-01-01'),length.out=600,by='days'),5),
  id=rep(letters[1:5],each=600),
  px=NA_real_,
  vol=NA_real_
  )

setkeyv(a,c('date_id','id'))
setkeyv(b,c('date_id','id'))

并且以下方法不起作用。

s = a[1,id]
d = a[1,date_id]
b[id == s & date_id == d, list(names(b)[3:4])] <- a[id == s & date_id ==d, list(names(a)[2:3])]

它失败并显示以下代码

Error in `[<-.data.table`(`*tmp*`, id == s & date_id == d, list(names(b)[3:4]),  : 
  j must be atomic vector, see ?is.atomic

我做错了什么以及如何将这些值从一个 data.table 设置为另一个元素。实际的表有很多列,所以手工写出来对我来说不是一个选择。

谢谢

4

1 回答 1

9

您的示例中有多个问题。

dt[ , "col" ]首先,如果您想以必须添加的形式访问 data.table 中的列with=FALSE

b[ , names(b)[3:4], with = FALSE ]

其次,我不确定是否可以使用赋值运算符 ( <-) 在 data.table 中赋值。为此,有超快的按引用更新运算符:

b[
  id == s & date_id == d,
  names(b)[3:4] := a[id == s & date_id ==d, names(a)[2:3], with = FALSE],
  with = FALSE
]

dt[ col == value, ]第三,通过语法对 data.tables 进行子集是可能的,但速度很慢。特别是如果您已经在要作为子集的列上设置了键,则应使用以下语法:

b[
  J(d,s),
  names(b)[3:4] := a[J(d,s), names(a)[2:3], with = FALSE] ,
  with = FALSE
]

第四,在我看来,这一切都好像您想要两个表的简单连接。所以最直接的方法是

a[ b[ , list(date_id, id) ] ]

或者考虑您的评论,您只想通过以下方式覆盖列pxvol子集中a

b[a, c("px", "vol") := a[, list(px, vol)], with = FALSE ]
于 2013-05-26T10:27:17.247 回答