11

假设我有一个这样的变量向量:

>variable
[1] "A1" "A1" "A1" "A1" "A2" "A2" "A2" "A2" "B1" "B1" "B1" "B1"

我想把它转换成这样的数据框:

  treatment time
1         A    1
2         A    1
3         A    1
4         A    1
5         A    2
6         A    2
7         A    2
8         A    2
9         B    1
10        B    1
11        B    1
12        B    1

为此,我使用了 reshape2 的 colsplit 函数。它需要一个模式来分割字符串,但我很快意识到没有明显的模式来分割两个字符而没有任何空格。我尝试了“”并得到以下结果:

> colsplit(trialm$variable,"",names=c("treatment","time"))
   treatment time
1         NA   A1
2         NA   A1
3         NA   A1
4         NA   A1
5         NA   A2
6         NA   A2
7         NA   A2
8         NA   A2
9         NA   B1
10        NA   B1
11        NA   B1
12        NA   B1

我还尝试了一个lookbehind或lookahead正则表达式:

>colsplit(trialm$variable,"(?<=\\w)",names=c("treatment","time"))
Error in gregexpr("(?<=\\w)", c("A1", "A1", "A1", "A1", "A2", "A2", "A2",  : 
  invalid regular expression '(?<=\w)', reason 'Invalid regexp'

但它给了我上述错误。我怎么解决这个问题?

4

9 回答 9

10

更新:2017 年 12 月 24 日

在某个地方,“stringr”包(使用“reshape2”导入并负责使用 进行的拆分colsplit)开始将“stringi”用于其几个功能。一些行为似乎因此而改变。

使用当前的“reshape2”(和当前的“stringr”包),colsplit按照您对代码的预期方式工作:

packageVersion("reshape2")
## [1] ‘1.4.3’
packageVersion("stringr")
## [1] ‘1.2.0’

colsplit(variable, "", names = c("treatment", "time"))
##    treatment time
## 1          A    1
## 2          A    1
## 3          A    1
## 4          A    1
## 5          A    2
## 6          A    2
## 7          A    2
## 8          A    2
## 9          B    1
## 10         B    1
## 11         B    1
## 12         B    1

原始答案:2013 年 4 月 24 日

如果可以在您的“变量”中检测到一种模式,但没有可以使用的干净分割字符,则添加一个 :)

library(reshape2)
variable <- c("A1", "A1", "A1", "A1", "A2", "A2", 
              "A2", "A2", "B1", "B1", "B1", "B1")
## Here, we add a "." between upper case letters and numbers
colsplit(gsub("([A-Z])([0-9])", "\\1\\.\\2", variable), 
         "\\.", c("Treatment", "Time"))
#    Treatment Time
# 1          A    1
# 2          A    1
# 3          A    1
# 4          A    1
# 5          A    2
# ::::: snip :::: #
# 11         B    1
# 12         B    1

附加选项:2017 年 12 月 23 日

我的“splitstackshape”包有一个单一用途的非导出辅助函数NoSep,可以用于此:

splitstackshape:::NoSep(variable)
##    .var .time_1
## 1     A       1
## 2     A       1
## 3     A       1
## 4     A       1
## 5     A       2
## ::: snip :::: #
## 11    B       1
## 12    B       1

“tidyverse”(特别是“tidyr”包)有几个方便的函数用于将值拆分到不同的列中:separateextract. jazzuro 已经演示过separate,但解决方案是针对这个特定问题的。此外,它通常与分隔符一起工作得更好。期望您使用要捕获的组指定正则表达式:extract

library(tidyverse)
data.frame(variable) %>% 
  extract(variable, into = c("Treatment", "Time"), regex = "([A-Z]+)([0-9]+)")
#    Treatment Time
# 1          A    1
# 2          A    1
# 3          A    1
# 4          A    1
# 5          A    2
# ::::: snip :::: #
# 11         B    1
# 12         B    1
于 2013-04-24T16:26:19.737 回答
9

substr是另一种方法。

> variable <- c(rep("A1", 4), rep("A2", 4), rep("B1", 4))
> data.frame(treatment=substr(variable, 1,1), time=as.numeric(substr(variable,2,2)))
   treatmen time
1         A    1
2         A    1
3         A    1
4         A    1
5         A    2
6         A    2
7         A    2
8         A    2
9         B    1
10        B    1
11        B    1
12        B    1
于 2013-04-24T15:24:39.797 回答
7

如果您使用矢量创建数据框variable,您现在可以separate()tidyr包中使用。

mydf <- data.frame(variable = c(rep("A1", 4), rep("A2", 4), rep("B1", 4)),
                   stringsAsFactors = FALSE)

separate(mydf, variable, c("treatement", "time"), sep = 1)

#   treatement time
#1           A    1
#2           A    1
#3           A    1
#4           A    1
#5           A    2
#6           A    2
#7           A    2
#8           A    2
#9           B    1
#10          B    1
#11          B    1
#12          B    1
于 2015-02-04T05:55:42.140 回答
5

您可以使用substr它来拆分它:

例如

df <- data.frame(treatment =   substr(variable, start = 1, stop = 1),
                 time =        substr(variable, start = 2, stop = 2) )
于 2013-04-24T15:24:51.640 回答
4

tstrsplit()中引入了一个新功能data.table v1.9.5t代表转。这是将字符向量拆分 strsplit()然后转置的结果。

# dummy data
library(data.table)
dt <- data.table(var = c(rep("A1", 4), rep("A2", 4), rep("B1", 4)))

使用tstrsplit()

dt[, tstrsplit(var, "")]

    V1 V2
 1:  A  1
 2:  A  1
 3:  A  1
 4:  A  1
 5:  A  2
 6:  A  2
 7:  A  2
 8:  A  2
 9:  B  1
10:  B  1
11:  B  1
12:  B  1

是的,就是这么简单。:-)

于 2015-02-04T08:34:38.707 回答
4

使用正则表达式的另一种解决方案

require(stringr)
variable <- c(paste0("A", c(rep(1, 4), rep(2, 3))),
              paste0("B", rep(1, 4))
              )

data.frame(
    treatment = str_extract(variable, "[[:alpha:]]"),
    time = as.numeric(str_extract(variable, "[[:digit:]]"))
    )

##    treatment time
## 1          A    1
## 2          A    1
## 3          A    1
## 4          A    1
## 5          A    2
## 6          A    2
## 7          A    2
## 8          B    1
## 9          B    1
## 10         B    1
## 11         B    1
于 2013-04-24T15:28:50.307 回答
3

您可以使用 substring() 创建向量,然后使用 data.frame 函数连接它们。

yyy<-c("A1", "A1", "A1", "A1", "A2", "A2", "A2", "A2", "B1", "B1", "B1", "B1")

treatment<-substring(yyy, 1,1)

time<-as.numeric(substring(yyy,2,2))

data.frame(treatment,time)
于 2013-04-24T15:26:47.633 回答
2

你可以使用strsplit

df <- t(data.frame(strsplit(variable, "")))
rownames(df) <- NULL
colnames(df) <- c("treatment" , "time" )
df
      treatment time
 [1,] "A"       "1" 
 [2,] "A"       "1" 
 [3,] "A"       "1" 
 [4,] "A"       "1" 
 [5,] "A"       "2" 
 [6,] "A"       "2" 
 [7,] "A"       "2" 
 [8,] "A"       "2" 
 [9,] "B"       "1" 
[10,] "B"       "1" 
[11,] "B"       "1" 
[12,] "B"       "1" 

而不是使用t,您可以使用rbind然后强制data.frame如下:

setNames(as.data.frame(do.call(rbind, strsplit(variable, ""))), 
         c("Treatment", "Time"))
#    Treatment Time
# 1          A    1
# 2          A    1
# 3          A    1
# 4          A    1
# 5          A    2
# 6          A    2
# 7          A    2
# 8          B    1
# 9          B    1
# 10         B    1
# 11         B    1
于 2013-04-24T15:21:00.280 回答
1

根据@Justin 的评论,我建议这样做(使用v <- c("A1", "B2")):

> t(sapply(strsplit(v, ''), '[', c(1, 2)))
     [,1] [,2]
[1,] "A"  "1" 
[2,] "B"  "2" 

`'[' 之后的向量从分割向量中选择项目。所以我只分裂了一次,保留了两个项目。如果您想保留每个项目,这可能会更容易:

t(sapply(strsplit(v, ''), identity))
于 2017-04-11T11:25:00.273 回答