设置
我有一个列表矩阵,其中一个“列”是一个列表(我意识到这是一个奇怪的数据集,但我发现它对其他操作很有用)。列表的每个条目都是;(1) 空 (integer(0)),(2) 整数,或 (3) 整数向量。
例如,R 对象“df”,df$ID 是索引向量,df$Basket_List 是列表。
ID <- c(1,2,3,4,5,6,7,8,9)
Basket_List <- list(integer(0),c(123,987),c(123,123),456,
c(456,123),456,c(123,987),c(987,123),987)
d.f <- data.frame(ID)
d.f$Basket_List <- Basket_List
我的问题
第一期
我想根据“Basket_List”是否包含某些值来创建一个新数据集,它是初始数据集的子集。例如,df 中所有行的子集,使得 Bask_list 具有“123”或“123”和“987”——或其他更复杂的条件。
我已经尝试了以下所有变体,但无济于事。
d.f2 <- subset(d.f, 123 %in% Basket_List)
d.f2 <- subset(d.f, 123 == any(Basket_List))
d.f2 <- d.f[which(123 %in% d.f$Basket_List,]
# should return the subset, with rows 2,3,5,7 & 8
第 2 期
我的另一个问题是,我将在数百万行(它是事务数据)上运行这个操作,所以我想尽可能地优化它以提高速度(我现在有一个复杂的 for 循环,但它花费太多时间)。
数据的替代设置
如果您认为它可能有用,数据也可能设置如下:
ID <- c(1,2,2,3,3,4,5,5,6,7,7,8,8,9)
Basket <- c(NA,123,987,123,123,456,456,123,456,123,987,987,123,987)
alt.d.f <- data.frame(ID,Basket)