如何从 ASCII 和 UTF-8 编码的字符串中去除标点符号,而不会弄乱 R 中的 UTF-8 原始字符,特别是中文。
text <- "Longchamp Le Pliage 肩背包 (小)"
stri_replace_all_regex(text, '\\p{P}', '')
结果是:
Longchamp Le Pliage ��背�� 小
但期望的结果应该是:
Longchamp Le Pliage 肩背包 小
我希望删除所有 CJK 符号和标点符号以及询问 ASCII 标点符号。
@akrun, sessionInfo() 如下
locale:
[1] LC_COLLATE=English_Singapore.1252 LC_CTYPE=English_Singapore.1252 LC_MONETARY=English_Singapore.1252
[4] LC_NUMERIC=C LC_TIME=English_Singapore.1252