我正在尝试清理文本以保留最多的字母、数字和最常见的标点符号。例如,我有时有 '''words''' 或 ''words'' 所以我想去掉那些多个简单的引号。到目前为止,我选择使用两个正则表达式:
import re
tqre=re.compile('\'\'\'[^\']*\'\'\'') #for triple quotes
dqre=re.compile('\'\'[^\']*\'\'') #for "double" quotes
然后剥离每场比赛:
res1=tqre.sub(self.quoteExtract,text)
res2=dqre.sub(self.quoteExtract,res1)
在哪里:
def quoteExtract(self,match):
return match.group().strip("'")
看起来它适用于三引号,但我有很多双引号通过,似乎它们没有被抓住。是不是因为它们不是真正简单的引号,而是另一个相似的标志?还有其他方法来处理它们吗?
例如:在* ''Esquisse d'une grammaire comparée de l'arménien classique'', 1903.
正则表达式中找不到。