以下函数用于为以下数据集创建路径概览:
tc <- textConnection('
path touchpoint time
abc A 1
abc A 2
abc B 3
abc C 4
def A 2
def B 3
def D 4
def C 5
def D 6
ghi A 1
ghi A 2
ghi A 3
ghi C 4
jkl A 5
jkl A 6
jkl B 7
jkl C 8
mno B 1
mno A 2
mno A 3
mno C 4
pqr A 1
pqr C 2
')
paths <- read.table(tc, header=TRUE)
--
library(plyr)
foo <- function(x){
r <- rle(as.character(x))
short <- paste0(r$values, collapse="_")
long <- paste0(r$values, "(", r$lengths, ")", collapse="_")
data.frame(short, long)
}
ddply(paths, .(path), function(x)foo(x$touchpoint))
path short long
1 abc A_B_C A(2)_B(1)_C(1)
2 def A_B_D_C_D A(1)_B(1)_D(1)_C(1)_D(1)
3 ghi A_C A(3)_C(1)
4 jkl A_B_C A(2)_B(1)_C(1)
5 mno B_A_C B(1)_A(2)_C(1)
6 pqr A_C A(1)_C(1)
因此,这个函数创建了两种形式的“路径”:
- Short 提供从最近到最近的每条路径的接触点序列。
- Long 提供从最近到最近的每条路径的接触点序列,包括涉及接触点的次数。
由于某些路径的接触点数量可能非常大,我想加入以下约束:仅从和中选择n
最新的值。由于路径是从对象构造的,我的问题是:short
long
rle()
如何N
从 rle() 对象中获取值及其相应的长度?由于路径是从最近的接触点保存到最近的接触点,因此N
需要选择最后的值和相应的长度。rle()
文档没有为此问题提供解决方案。
预期结果N=2
是:
path short long
1 abc B_C B(1)_C(1)
2 def C_D C(1)_D(1)
3 ghi A_C A(3)_C(1)
4 jkl B_C B(1)_C(1)
5 mno A_C A(2)_C(1)
6 pqr A_C A(1)_C(1)