r - R-合并两个数据框，但有些值中有分号

Question

我的一个数据框（df1）有一个这样的列：

ID
AB
CD;EF
IJ
KL
MN
OP;WX
WW
YZ

另一个数据框（df2）具有以下格式（这是一个非常大的数据表）：

myIDColumn  someName    somevalue
AB  gsdfg   123
CD  tfgsdfg 234
EF  sfdgsf  365
GH  gdfgb   53453
IJ  sr  64564
KL  sfsdv   4234234
MN  ewrwe   5
OP  dsfsss  3453
QR  gggg    667
ST  dss 7567
UV  hhhhjf  55
WX  dfadasad    8657
YZ  ghfgh   1234
ABC gdgfg 234455
VCB hgjkk 5555667

我想根据我的 df1 合并数据框，但是如何解决这个特殊连接上的分号问题。有没有办法使用正则表达式加入这些数据框？

我想要的输出：

ID    someName    somevalue
AB    gsdfg   123
CD;EF tfgsdfg,sfdgsf  234,365
IJ    sr  64564
KL    sfsdv   4234234
MN    ewrwe   5
OP;WX dsfsss,dfadasad 3453,8657
WW        
YZ    dfadasad    8657
TT

非常感谢任何帮助。谢谢！

score 4 · Accepted Answer

这是一个紧凑的解决方案。请注意，所有字段都将转换为字符，因为没有其他方法可以将两个整数存储在一个元素中。df1$ID如果其中缺少某些值，df2$miIDColumn您将在那里获得一个"character(0)"值。

IDs <- strsplit(df1$ID, ";")
mrg <- foreach(x=IDs, .combine=rbind) %do% {
    pieces <- lapply(x, function(y) df2[df2$myIDColumn %in% y,])
    do.call(paste, c(pieces, list(sep=",")))
}
dimnames(mrg) <- list(NULL, colnames(df2))

这是输出（mrg顺便说一句是矩阵）：

     myIDColumn     someName          somevalue   
[1,] "AB"           "gsdfg"           "123"       
[2,] "CD,EF"        "tfgsdfg,sfdgsf"  "234,365"   
[3,] "IJ"           "sr"              "64564"     
[4,] "KL"           "sfsdv"           "4234234"   
[5,] "MN"           "ewrwe"           "5"         
[6,] "OP,WX"        "dsfsss,dfadasad" "3453,8657" 
[7,] "character(0)" "character(0)"    "integer(0)"
[8,] "YZ"           "ghfgh"           "1234"

score 4 · Accepted Answer

分两步，类似于发布的解决方案，但方式更紧凑。

合并2个data.frame
然后转换包含“;”的行

这里的代码：

##step1
mm <- merge(df2,df1,by.y='ID',by.x='myIDColumn',all.y=TRUE)
## step2
rr <- do.call(rbind,lapply(strsplit(mm$myIDColumn[grep(';',mm$myIDColumn)],';'),
       function(x){
            res <- paste(df2[df2$myIDColumn==x[1],],
                  df2[df2$myIDColumn==x[2],],
                  sep=',')
            res[1] <- paste(x,collapse=';')
            res}))
mm[grep(';',mm$myIDColumn),]  <- rr

 myIDColumn        someName somevalue
1         AB           gsdfg       123
2      CD;EF  tfgsdfg,sfdgsf   234,365
3         IJ              sr     64564
4         KL           sfsdv   4234234
5         MN           ewrwe         5
6      OP;WX dsfsss,dfadasad 3453,8657
7         WW            <NA>      <NA>
8         YZ           ghfgh      1234

score 2 · Accepted Answer

这是一种涉及分离df1成两个新数据框的策略（一个您将df2正常合并为一个，一个具有分号ID值，这更难处理）。

l <- grep(";",df1$ID) # semicolon lines
nl <- which(!grepl(";",df1$ID)) # non-semicolon lines

# merge non-semicolon lines
newdfA <- merge(df1[nl,],df2,all.x=TRUE)

# merge semicolon lines
tmpdf1 <- df1[l,]
split <- strsplit(tmpdf1$ID,";")

### This seems sloppy, but should work
newdfB <- data.frame(t(sapply(split, FUN=
    function(x){
    tmprows <- df2[df2$ID %in% x,]
    return(c(   paste0(tmprows[,1],collapse=";"),
            paste0(tmprows[,2],collapse=","),
            paste0(tmprows[,3],collapse=",") ))
    } )))
colnames(newdfB) <- c("ID","someName","someValue")

# merge everything back together
newdf <- merge(newdfA, newdfB, all=TRUE)

r - R-合并两个数据框，但有些值中有分号

3 回答 3

Related

Reference