21

我正在寻找一种方法来有效地将函数应用于 data.table 的每一行。让我们考虑以下数据表:

library(data.table)
library(stringr)

x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

假设我想b按空格分割列的每个元素(从而为原始数据中的每一行产生两行)并加入结果数据表。对于上面的示例,我需要以下结果:

   a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19

如果列a仅具有唯一值,则以下方法将起作用:

x[, list(str_split(b, ' ')[[1]]), by = a]

以下几乎可以工作(除非原始数据表中有一些相同的行),但是当x有很多列并将列 b 复制到结果时很难看,我想避免这种情况。

>     x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
   a     b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19

解决这个问题的最有效和最惯用的方法是什么?

4

7 回答 7

14

怎么样 :

x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))]
   a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19

给出评论的广义解决方案:

x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]
于 2013-03-28T13:51:01.393 回答
4
x[, .(a,strsplit(b,' ')), by=1:nrow(x)]

by=nrow(x)是强制每组 1 行的简单方法

于 2016-09-11T19:59:12.493 回答
4
x[, .(a,strsplit(b,' ')), by = .I]

看起来更美

于 2016-10-30T03:29:47.477 回答
2

一种选择是添加行号

x[, r := 1:nrow(x)]

然后分组r

x[, list(a, str_split(b, ' ')[[1]]), by = r]

我想知道是否有更好的解决方案?

于 2013-03-28T03:28:45.920 回答
2

最有效和惯用的方法是使用矢量化函数。

在这种情况下,某种regex会做你想做的事

 x[, V1 := gsub(" [[:alnum:]]*", "", b)]

   a     b V1
1: 1 12 13 12
2: 2 14 15 14
3: 3 16 17 16
4: 1 18 19 18

如果要返回每个拆分组件,并且知道每个组件中有两个,则可以使用Map将结果强制strsplit转换为正确的形式

x[, c('b1','b2')  := do.call(Map, c(f = c, strsplit(b, ' ')))]



x
   a     b b1 b2
1: 1 12 13 12 13
2: 2 14 15 14 15
3: 3 16 17 16 17
4: 1 18 19 18 19
于 2013-03-28T03:28:57.783 回答
1

/方法也适用于数据表dplyrtidyr

library(dplyr)
library(tidyr)
x %>% 
  separate(b, into = c("b1", "b2")) %>% 
  gather(b, "V1", b1:b2) %>%
  arrange(V1) %>%
  select(a, V1)

或者,使用标准评估表:

x %>% 
  separate_("b", into = c("b1", "b2")) %>% 
  gather_("b", "V1", c("b1", "b2")) %>%
  arrange_(~ V1) %>%
  select_(~ a, ~ V1)

列中不同数量的值的b情况只是稍微复杂一些。

library(stringr)

x2 <- data.table(
  a = c(1:3, 1), 
  b = c('12 13', '14', '15 16 17', '18 19')
)

n <- max(str_count(x2$b, " ")) + 1
b_cols <- paste0("b", seq_len(n))
x2 %>% 
  separate_("b", into = b_cols, extra = "drop") %>% 
  gather_("b", "V1", b_cols) %>%
  arrange_(~ V1) %>%
  select_(~ a, ~ V1)
于 2015-05-06T10:13:13.503 回答
0

查看输入和所需的输出,这应该可行 -

x <- data.frame(a=c(1,2,3,1),b=c("12 13","14 15","16 17","18 19"))
data.frame(a=rep(x$a,each=2), new_b=unlist(strsplit(as.character(x$b)," ")))
于 2013-03-28T04:07:24.477 回答