0

我有几列和 50K 加观察的数据框。我们将其命名为 df1。其中一个变量是 PLATES(此处表示为“y”),其中包含城市中公共汽车的车牌号。我想将此数据框与另一个(df2)匹配,其中我也有板块数据。我只想保留匹配的记录。在查看来自 CSV 文件的 df1 中的数据时,我意识到对于 y,有几个观察值在车牌号之前有符号,这些符号对应于不间断空格。我如何摆脱它,以便在我进行匹配时它不是问题。这里有一些代码可以帮助说明。假设您有 5 个车牌号:

y <- c(0740170, 0740111, 0740119, 0740115, 0740048)

但经过进一步检查

view(y)

您会看到以下内容

<c2><a0>0740170
<c2><a0>0740111
<c2><a0>0740119
<c2><a0>0740115
<c2><a0>0740048

我试过这个,从这篇文章https://blog.tonytsai.name/blog/2017-12-04-detecting-non-break-space-in-r/,但没有奏效

y <- gsub("\u00A0", " ", y, fixed = TRUE)

非常感谢您对如何处理此问题的帮助。谢谢!

4

1 回答 1

1

不太确定这会有所帮助,因为我无法测试我的答案(因为我无法重现您的问题)。但是,如果不间断空格字符同时是非 ASCII 字符,那么解决方案将是:

y <- gsub("[^ -~]+", "", y)

该模式匹配任何非 ASCII 字符,并且替换将它们设置为空。希望这可以帮助

于 2020-06-09T19:38:17.717 回答