我有一个从字符串列表中删除标点符号的函数:
def strip_punctuation(input):
x = 0
for word in input:
input[x] = re.sub(r'[^A-Za-z0-9 ]', "", input[x])
x += 1
return input
我最近修改了我的脚本以使用 Unicode 字符串,这样我就可以处理其他非西方字符。这个函数在遇到这些特殊字符时会中断,只返回空的 Unicode 字符串。如何可靠地从 Unicode 格式的字符串中删除标点符号?