我最近决定跳入 Python 池的最深处,开始将我的一些 R 代码转换为 Python,但我被困在对我来说非常重要的事情上。在我的工作中,我花费大量时间解析文本数据,众所周知,文本数据非常非结构化。结果,我开始依赖正则表达式的环视功能,而 R 的环视功能非常强大。例如,如果我正在解析一个 PDF,当我对文件进行 OCR 时,它可能会在字母之间引入一些空格,我会得到我想要的值,如下所示:
oAcctNum <- str_extract(textBlock[indexVal], "(?<=ORIG\\s?:\\s?/\\s?)[A-Z0-9]+")
在 Python 中,这是不可能的,因为使用?
使lookbehind 成为可变宽度的表达式,而不是固定宽度的表达式。这个功能对我来说非常重要,它阻止了我想要使用 Python,但我不想放弃这种语言,我想知道 Pythonista 解决这个问题的方法。在提取文本之前我是否必须预处理字符串?像这样的东西:
oAcctNum = re.sub(r"(?<=\b\w)\s(?=\w\b)", "")
oAcctNum = re.search(r"(?<=ORIG:/)([A-Z0-9])", textBlock[indexVal]).group(1)
有没有更有效的方法来做到这一点?因为虽然这个例子很简单,但这个问题在我处理的数据中以非常复杂的方式出现,我不想对我分析的每一行文本进行这种预处理。
最后,如果这不是问这个问题的正确地方,我深表歉意;我不确定在哪里发布它。提前致谢。