r - 删除 R 中的不间断空格字符

Question

我有几列和 50K 加观察的数据框。我们将其命名为 df1。其中一个变量是 PLATES（此处表示为“y”），其中包含城市中公共汽车的车牌号。我想将此数据框与另一个（df2）匹配，其中我也有板块数据。我只想保留匹配的记录。在查看来自 CSV 文件的 df1 中的数据时，我意识到对于 y，有几个观察值在车牌号之前有符号，这些符号对应于不间断空格。我如何摆脱它，以便在我进行匹配时它不是问题。这里有一些代码可以帮助说明。假设您有 5 个车牌号：

y <- c(0740170, 0740111, 0740119, 0740115, 0740048)

但经过进一步检查

view(y)

您会看到以下内容

<c2><a0>0740170
<c2><a0>0740111
<c2><a0>0740119
<c2><a0>0740115
<c2><a0>0740048

我试过这个，从这篇文章https://blog.tonytsai.name/blog/2017-12-04-detecting-non-break-space-in-r/，但没有奏效

y <- gsub("\u00A0", " ", y, fixed = TRUE)

非常感谢您对如何处理此问题的帮助。谢谢！

score 1 · Accepted Answer

不太确定这会有所帮助，因为我无法测试我的答案（因为我无法重现您的问题）。但是，如果不间断空格字符同时是非 ASCII 字符，那么解决方案将是：

y <- gsub("[^ -~]+", "", y)

该模式匹配任何非 ASCII 字符，并且替换将它们设置为空。希望这可以帮助

r - 删除 R 中的不间断空格字符

1 回答 1

Related

Reference