问问题
1267 次
3 回答
2
使用字符类可能会起作用,或者可能会为您破坏一切:
matchquotes = re.findall(r'[“”"](?:\\[“”"]|.)*?[“”"]', text)
如果您不太关心总是排成一行的配对,那么这可能会满足您的需求。除非您构建一些模式并找到它们的交集,否则他们在其他两种中使用第三种类型的情况总是会让您感到困惑。
于 2012-10-31T06:08:08.630 回答
1
根据您正在进行的其他处理以及文本的来源,最好将所有引号转换为 " 而不是处理每种情况。
于 2012-10-31T06:04:36.290 回答
0
我不是专家,但对于那些类型的“花哨”报价,我会首先从表格中获取它们的代码,例如\xe2\x80\x9c或\u2019。然后我会尝试匹配他们编写他们的正则表达式代码。为此目的,这可能会有所帮助:http ://www.regular-expressions.info/refunicode.html
我希望它有帮助!
于 2012-10-31T06:35:10.600 回答