data.table
提供了一个rleid
我认为无价的功能 - 当观察到的变量发生变化时,它充当一个代码,由其他一些变量排序。
library(dplyr)
tbl = tibble(time = as.integer(c(1, 2, 3, 4, 5, 6, 7, 8)),
var = c("A", "A", "A", "B", "B", "A", "A", "A"))
> tbl
# A tibble: 8 × 2
time var
<int> <chr>
1 1 A
2 2 A
3 3 A
4 4 B
5 5 B
6 6 A
7 7 A
8 8 A
期望的结果是
> tbl %>% mutate(rleid = data.table::rleid(var))
# A tibble: 8 × 3
time var rleid
<int> <chr> <int>
1 1 A 1
2 2 A 1
3 3 A 1
4 4 B 2
5 5 B 2
6 6 A 3
7 7 A 3
8 8 A 3
我想知道是否可以使用sparklyr
. 测试时,我发现我能做的最好的事情就是达到我需要做一个填充的点,但后来无法做到这一点。
library(sparklyr)
spark_install(version = "2.0.2")
sc <- spark_connect(master = "local",
spark_home = spark_home_dir())
spk_tbl = copy_to(sc, tbl, overwrite = TRUE)
spk_tbl %>%
mutate(var2 = (var != lag(var, 1L, order = time))) %>% # Thanks @JaimeCaffarel
mutate(var3 = if(var2) { paste0(time, var) } else { NA })
Source: query [8 x 4]
Database: spark connection master=local[4] app=sparklyr local=TRUE
time var var2 var3
<int> <chr> <lgl> <chr>
1 1 A TRUE 1A
2 2 A FALSE <NA>
3 3 A FALSE <NA>
4 4 B TRUE 4B
5 5 B FALSE <NA>
6 6 A TRUE 6A
7 7 A FALSE <NA>
8 8 A FALSE <NA>
我尝试过使用SparkR
,但我更喜欢sparklyr
界面及其易用性,因此我最好能够在 Spark SQL 中执行此操作。
当然,我已经可以通过将数据划分为足够小的块、collect
运行它、运行一个函数并将其发回来做到这一点。
对于上下文,我发现rleid
它有用的原因是我处理了大量的火车数据,并且能够索引它的运行情况很有用。
感谢您的帮助