5

我正在尝试更改 data.table 中特定行的一列的值。这在我进行矢量扫描时有效,但在我进行二进制搜索时无效。

dtData <- data.table(TickerId = c(1,2,3,4,5), DateTime = c(1,2,3,4,5), Close =     c(100,200,300,400,500), key=c('TickerId', 'DateTime'))
dtQuery <- data.table(TickerId = c(1,4), DateTime = c(1,4))

#Binary search doesn't work - both changed rows now contain 101
dtData[dtQuery, Close:=c(101,401)]

#Vector scan works
dtData[TickerId %in% c(1,4) & DateTime %in% c(1,4), Close:=c(101,401)]

有人能指出为什么会这样吗?

另外,在大型 data.table 中更改此类值的最佳(最快)方法是什么?

谢谢你。

4

3 回答 3

4

这行得通吗?

dtQuery[,newClose:=c(101,401)]
dtData[dtQuery,Close:=newClose]

如果是这样,它比您的矢量扫描好得多,而不仅仅是因为速度。矢量扫描看起来非常脆弱。有了它,如果你看到一对 (4,1) 或者你在 (1,1) 之前看到 (4,4) 会发生什么?

于 2013-10-28T17:57:05.287 回答
1

注意不同的结果

dtData[dtQuery, Close]
#    TickerId DateTime Close
# 1:        1        1   100
# 2:        4        4   400

dtData[TickerId %in% c(1,4) & DateTime %in% c(1,4), Close]
# [1] 100 400

所以为了使用二分搜索,你必须选择关闭列

dtData[dtQuery, ][, Close] 

但是,赋值在复合查询中不起作用。

于 2013-10-28T13:16:02.000 回答
1

受影子回答的启发,我发现了一种似乎可行的“非复合”方式。首先通过二分搜索获取行号,然后使用找到的行号更新 data.table。

dtIndex <- dtData[dtQuery, .I]
dtData[dtIndex$".I", Close:=c(101,401)]

有什么更好的快速更新想法吗?

于 2013-10-28T15:43:55.247 回答