曾几何时,我发现这个问题很有趣。
今天我决定玩弄那本书的文字。
我想在这个脚本中使用正则表达式。当我在西里尔文字上使用脚本时,它会清除所有西里尔字符,只留下标点符号和空格。
#!/usr/bin/env python3.2
# coding=UTF-8
import sys, re
for file in sys.argv[1:]:
f = open(file)
fs = f.read()
regexnl = re.compile('[^\s\w.,?!:;-]')
rstuff = regexnl.sub('', f)
f.close()
print(rstuff)
在这个答案中已经做了一些非常相似的事情。
基本上,我只想能够指定一组不是字母、字母数字、标点符号或空格的字符。