2

我试过用内置数据集重现这个问题,但它只发生在我自己的身上。

如果我们随机抽取我的数据子集:

structure(list(ID = structure(c(27L, 1L, 27L, 7L, 5L, 10L, 23L, 
19L, 21L, 26L), .Label = c("AC ", "AJ ", "AT ", "AWY", "BP ", 
"BW ", "CA ", "CK ", "CS ", "DJ ", "EN ", "ES ", "HF ", "HG ", 
"HL ", "HR ", "IP ", "JA ", "JG ", "JN ", "KB ", "KP ", "MJ ", 
"PC ", "RFH", "RPA", "SB ", "SG ", "TM "), class = "factor"), 
TNO = c(30L, 60L, 30L, 10000L, 10000L, 10000L, 120L, 60L, 
120L, 10000L), TNOGroup = structure(c(1L, 1L, 1L, 2L, 2L, 
2L, 2L, 1L, 2L, 2L), .Label = c("Good", "Poor"), class = "factor"), 
x = c(6.15, 7.75, 5.6, 3.05, 3, 4.1, 6, 3.9, 5.85, 3.75), 
View = structure(c(1L, 1L, 2L, 2L, 2L, 2L, 1L, 2L, 1L, 1L
), .Label = c("Binocular", "Monocular"), class = "factor"), 
Prior = structure(c(2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L
), .Label = c("N", "Y"), class = "factor")), .Names = c("ID", 
"TNO", "TNOGroup", "x", "View", "Prior"), row.names = c(169L, 
49L, 24L, 16L, 9L, 4L, 35L, 18L, 164L, 36L), class = "data.frame")

然后尝试删除 ID 的所有实例,该 ID 是两个字符的字符串,例如“SB”:

data2 <- data[!data$ID %in% c("SB"),] # List syntax in case multiple cases

但是,当我检查数据框时,ID 为“SB”的案例仍然存在。当我尝试使用诸如“RPA”之类的三个字符的字符串时,所有具有此 ID 的案例都将按预期删除。

关于为什么会发生这种情况的任何见解?

4

1 回答 1

6

作为替代%in%,我建议尝试grepl如下:

mydf[!grepl("CA", mydf$ID), ]
   ID   TNO TNOGroup    x      View Prior
1  AC    60     Good 5.75 Binocular     Y
2 RFH    60     Good 5.60 Monocular     N
3  BP 10000     Poor 3.00 Monocular     N
4  HG    60     Good 4.30 Binocular     Y
6  IP   120     Poor 5.50 Monocular     N
7  JG    60     Good 3.80 Monocular     Y
9 AWY 10000     Poor 3.70 Monocular     Y

我的怀疑(如果没有实际看到使用 提供的数据子集,我无法验证dput)是这些"CA"值周围可能有空格。对于 R,"CA"与 不同"CA ",即使它们在 a 中看起来相同data.frame


如果正在读入的文件中有空格,则通常会发生此类问题。默认情况下,R 在决定是否删除该空格时是保守的,但它包含了与和系列strip.white一起使用的逻辑参数。read.table

因此,您可以通过使用以下方法来避免此问题:

read.csv("yourfile.csv", strip.white = TRUE)

另请注意,这不一定是更安全或更强烈推荐的替代方法%in%。使用grepl可能会产生意想不到的后果。例如,如果您有另一个 ID,则"CAR"使用我共享的选项也会匹配。


更新

甚至strip.white不能解决你所有的问题。如果您的 CSV 引用了所有字符串,并且引号之间存在硬编码的strip.white空格,则将按照预期使用这些空格。

这是一个基本的例子。

我们将创建一个 CSV 文件,其中第一行数据包含硬编码的空格,而第二行数据没有。

myTest <- tempfile()
cat(file = myTest, 'A, B, C', 
    '"AA", "BB ", "CC"', 
    '    AA,   BB   , CC', 
    sep = "\n")

现在,使用read.csvwith 和 without读取文件strip.white = TRUE并比较输出。

A <- read.csv(myTest)
B <- read.csv(myTest, strip.white = TRUE)
print(A, quote = TRUE)
#          A          B     C
# 1     "AA"     " BB " " CC"
# 2 "    AA" "   BB   " " CC"
print(B, quote = TRUE)
#      A     B    C
# 1 "AA" "BB " "CC"
# 2 "AA"  "BB" "CC"
unlink(myTest)

请注意,在“B”中,对于引号之间的空格未硬编码的行,空格已被适当地修剪,但仍保留在第一行中。要解决这个问题,您可能需要使用一些正则表达式来去除字符串开头和结尾的空格。

于 2013-09-10T16:53:18.657 回答