1

我有一个包含 Twitter 数据的数据集,我正在尝试从中删除所有非 ASCII 字符。数据集的行当前如下所示:

'期待今晚,并为谁有强大的竞争而生根。嘘\u2026'

我想得到这个:

'期待今晚,并为谁有强大的竞争而生根。嘘'

由于我的 csv 文件的编码是“未知”,因此我使用read.csv2(file, encoding='UTF-8'). 另外,我已经将我的文本列转换为向量as.vector(x),然后尝试:

iconv(x, from = "UTF-8", to = "ASCII", sub = '')

sapply(x, function(row) iconv(row, "UTF-8", "ASCII", sub=""))

作为我在其他类似问题中找到的解决方案。但是,数据集或向量中没有任何变化。

关于问题可能是什么的任何想法?

4

0 回答 0