r - 如何修剪前导和尾随空白？

Question

我在 data.frame 中的前导和尾随空格时遇到了一些麻烦。

例如，我根据某个条件查看一个特定的row：data.frame

> myDummy[myDummy$country == c("Austria"),c(1,2,3:7,19)] 



[1] codeHelper     country        dummyLI    dummyLMI       dummyUMI       

[6] dummyHInonOECD dummyHIOECD    dummyOECD      

<0 rows> (or 0-length row.names)

我想知道为什么我没有得到预期的输出，因为奥地利显然存在于我的data.frame. 在查看了我的代码历史并试图找出问题所在后，我尝试了：

> myDummy[myDummy$country == c("Austria "),c(1,2,3:7,19)]
   codeHelper  country dummyLI dummyLMI dummyUMI dummyHInonOECD dummyHIOECD
18        AUT Austria        0        0        0              0           1
   dummyOECD
18         1

我在命令中所做的只是在奥地利之后增加了一个空格。

显然会出现更多恼人的问题。例如，当我喜欢根据国家列合并两个框架时。一个data.frame使用"Austria "，而另一个框架有"Austria"。匹配不起作用。

有没有一种很好的方法可以在我的屏幕上“显示”空白区域，以便我意识到问题所在？
我可以删除R中的前导和尾随空格吗？

到目前为止，我曾经编写过一个简单的Perl脚本来消除白人的节奏，但如果我能以某种方式在 R 中做到这一点，那就太好了。

score 557 · Accepted Answer

从 R 3.2.0 开始，引入了一个新函数来删除前导/尾随空格：

trimws()

请参阅：删除前导/尾随空格

score 485 · Accepted Answer

可能最好的方法是在读取数据文件时处理尾随空格。如果你使用read.csv或者read.table你可以设置参数strip.white=TRUE。

如果您想在之后清理字符串，您可以使用以下功能之一：

# Returns string without leading white space
trim.leading <- function (x)  sub("^\\s+", "", x)

# Returns string without trailing white space
trim.trailing <- function (x) sub("\\s+$", "", x)

# Returns string without leading or trailing white space
trim <- function (x) gsub("^\\s+|\\s+$", "", x)

要在上使用这些功能之一myDummy$country：

 myDummy$country <- trim(myDummy$country)

要“显示”您可以使用的空白：

 paste(myDummy$country)

这将显示用引号 (") 包围的字符串，使空格更容易被发现。

score 93 · Accepted Answer

要处理空白，请使用 stringr 包中的 str_trim()。该软件包的手册日期为 2013 年 2 月 15 日，位于CRAN中。该函数还可以处理字符串向量。

install.packages("stringr", dependencies=TRUE)
require(stringr)
example(str_trim)
d4$clean2<-str_trim(d4$V2)

（归功于评论者：R. Cotton）

score 27 · Accepted Answer

删除前导和尾随空格的简单函数：

trim <- function( x ) {
  gsub("(^[[:space:]]+|[[:space:]]+$)", "", x)
}

用法：

> text = "   foo bar  baz 3 "
> trim(text)
[1] "foo bar  baz 3"

score 13 · Accepted Answer

广告 1）要查看空格，您可以print.data.frame使用修改后的参数直接调用：

print(head(iris), quote=TRUE)
#   Sepal.Length Sepal.Width Petal.Length Petal.Width  Species
# 1        "5.1"       "3.5"        "1.4"       "0.2" "setosa"
# 2        "4.9"       "3.0"        "1.4"       "0.2" "setosa"
# 3        "4.7"       "3.2"        "1.3"       "0.2" "setosa"
# 4        "4.6"       "3.1"        "1.5"       "0.2" "setosa"
# 5        "5.0"       "3.6"        "1.4"       "0.2" "setosa"
# 6        "5.4"       "3.9"        "1.7"       "0.4" "setosa"

另请参阅?print.data.frame其他选项。

score 11 · Accepted Answer

使用grep或grepl查找带有空格的观察结果并使用sub去除它们。

names<-c("Ganga Din\t", "Shyam Lal", "Bulbul ")
grep("[[:space:]]+$", names)
[1] 1 3
grepl("[[:space:]]+$", names)
[1]  TRUE FALSE  TRUE
sub("[[:space:]]+$", "", names)
[1] "Ganga Din" "Shyam Lal" "Bulbul"

score 10 · Accepted Answer

删除前导和尾随空格也可以通过 gdata 包中的 trim() 函数实现：

require(gdata)
example(trim)

使用示例：

> trim("   Remove leading and trailing blanks    ")
[1] "Remove leading and trailing blanks"

_{我更愿意将答案添加为 user56 的评论，但我还不能这样写作为一个独立的答案。}

score 6 · Accepted Answer

如果输入之间有多个空格，则会出现另一个相关问题：

> a <- "  a string         with lots   of starting, inter   mediate and trailing   whitespace     "

然后，您可以使用参数的正则表达式轻松将此字符串拆分为“真实”标记split：

> strsplit(a, split=" +")
[[1]]
 [1] ""           "a"          "string"     "with"       "lots"
 [6] "of"         "starting,"  "inter"      "mediate"    "and"
[11] "trailing"   "whitespace"

请注意，如果（非空）字符串的开头有匹配项，则输出的第一个元素是 '""'，但如果字符串末尾有匹配项，则输出相同与删除匹配一样。

score 6 · Accepted Answer

另一种选择是使用包中的stri_trim函数，该函数stringi默认删除前导和尾随空格：

> x <- c("  leading space","trailing space   ")
> stri_trim(x)
[1] "leading space"  "trailing space"

对于仅删除前导空格，请使用stri_trim_left. 对于仅删除尾随空格，请使用stri_trim_right. 当您想要删除其他前导或尾随字符时，您必须使用pattern =.

另请参阅?stri_trim以获取更多信息。

score 3 · Accepted Answer

我创建了一个trim.strings ()函数来修剪前导和/或尾随空格：

# Arguments:    x - character vector
#            side - side(s) on which to remove whitespace 
#                   default : "both"
#                   possible values: c("both", "leading", "trailing")

trim.strings <- function(x, side = "both") { 
    if (is.na(match(side, c("both", "leading", "trailing")))) { 
      side <- "both" 
      } 
    if (side == "leading") { 
      sub("^\\s+", "", x)
      } else {
        if (side == "trailing") {
          sub("\\s+$", "", x)
    } else gsub("^\\s+|\\s+$", "", x)
    } 
}

为了说明，

a <- c("   ABC123 456    ", " ABC123DEF          ")

# returns string without leading and trailing whitespace
trim.strings(a)
# [1] "ABC123 456" "ABC123DEF" 

# returns string without leading whitespace
trim.strings(a, side = "leading")
# [1] "ABC123 456    "      "ABC123DEF          "

# returns string without trailing whitespace
trim.strings(a, side = "trailing")
# [1] "   ABC123 456" " ABC123DEF"

score 2 · Accepted Answer

最好的方法是trimws()。

以下代码将此函数应用于整个数据帧。

mydataframe<- data.frame(lapply(mydataframe, trimws),stringsAsFactors = FALSE)

score 2 · Accepted Answer

我试过修剪（）。它适用于空白以及'\ n'。

x = '\n              Harden, J.\n              '

trim(x)

score 1 · Accepted Answer

myDummy[myDummy$country == "Austria "] <- "Austria"

在此之后，您需要强制 R 不将其识别"Austria "为关卡。让我们假设你也有"USA"和"Spain"作为级别：

myDummy$country = factor(myDummy$country, levels=c("Austria", "USA", "Spain"))

与投票率最高的回应相比，它没有那么吓人，但它应该仍然有效。

score 1 · Accepted Answer

使用 dplyr/tidyverse mutate_allwithstr_trim修剪整个数据框：

myDummy %>%
  mutate_all(str_trim)

library(tidyverse)
set.seed(335)
df <- mtcars %>%
        rownames_to_column("car") %>%
        mutate(car = ifelse(runif(nrow(mtcars)) > 0.4, car, paste0(car, " "))) %>%
        select(car, mpg)

print(head(df), quote = T)
#>                    car    mpg
#> 1         "Mazda RX4 " "21.0"
#> 2      "Mazda RX4 Wag" "21.0"
#> 3        "Datsun 710 " "22.8"
#> 4    "Hornet 4 Drive " "21.4"
#> 5 "Hornet Sportabout " "18.7"
#> 6           "Valiant " "18.1"

df_trim <- df %>%
  mutate_all(str_trim)

print(head(df_trim), quote = T)  
#>                   car    mpg
#> 1         "Mazda RX4"   "21"
#> 2     "Mazda RX4 Wag"   "21"
#> 3        "Datsun 710" "22.8"
#> 4    "Hornet 4 Drive" "21.4"
#> 5 "Hornet Sportabout" "18.7"
#> 6           "Valiant" "18.1"

^{由reprex 包（v0.3.0）于 2021-05-07 创建}

score 0 · Accepted Answer

对于谁可能感兴趣，这里有一个简单的基准测试。这当然没有捕捉到所有奇怪的情况，但到目前为止，我们仍然缺少str_trim删除空格trimws而不删除空格的示例（请参阅 Richard Telford 对此答案的评论）。似乎无关紧要 - gsub 选项似乎是最快的:)

x <- c(" lead", "trail ", " both ", " both and middle ", " _special")
gsub_trim <- function (x) gsub("^\\s+|\\s+$", "", x)
res <- microbenchmark::microbenchmark(
  gsub = gsub_trim(x),
  trimws = trimws(x),
  str_trim = stringr::str_trim(x),
  times = 10^5
)
res
#> Unit: microseconds
#>      expr    min     lq      mean median       uq       max neval cld
#>      gsub 20.201 22.788  31.43943 24.654  28.4115  5303.741 1e+05 a  
#>    trimws 38.204 41.980  61.92218 44.420  51.1810 40363.860 1e+05  b 
#>  str_trim 88.672 92.347 116.59186 94.542 105.2800 13618.673 1e+05   c
ggplot2::autoplot(res)

sessionInfo()
#> R version 4.0.3 (2020-10-10)
#> Platform: x86_64-apple-darwin17.0 (64-bit)
#> Running under: macOS Big Sur 10.16
#> 
#> locale:
#> [1] en_GB.UTF-8/en_GB.UTF-8/en_GB.UTF-8/C/en_GB.UTF-8/en_GB.UTF-8
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> loaded via a namespace (and not attached):
#>  stringr_1.4.0

r - 如何修剪前导和尾随空白？

15 回答 15

Related

Reference