最好的办法是去掉有时出现在维基百科参考开头的字母?
例如从
abcd 星球大战前传 III:西斯的复仇 (DVD)。20世纪福克斯。2005 年。
至
星球大战前传 III:西斯的复仇 (DVD)。20世纪福克斯。2005 年。
我已经组合了一个可行的解决方案,但看起来很笨重。我的版本使用'^(?:a (?:b (?:c )?)?)?'形式的正则表达式。什么是正确,快速的方法?
a = list('abcdefghijklmnopqrstuvwxyz')
reg = "^%s%s" % ( "".join(["(?:%s " %b for b in a]), ")?"*len(a) )
re.sub(reg, "", "a b c d Wikipedia Reference")