我有一个包含 user_id 的 DataFrame 'data'。要获得所有 user_id=1 我只是这样做
filter(data, data$user_id==1)
假设我想创建一个新的 DataFrame 'new_data',其中包含前 10 个 user_id,即 user_id= 1, 2 , 3 ,..., 10。
SparkR 中的一种方法是
newdata <- unionAll(filter(data, data$user_id==1), filter(data, data$user_id==2))
for(j in 3:10){
newdata<- unionAll(newdata, filter(data, data$user_id==j) )
}
这很好用,但是对于大 j 可能需要一些时间。一定有更聪明、更简单的方法来做到这一点?