基本上,
我有想要从文本块中吐出的文本。但是,我大部分都保留了正则表达式,它要么太少[跳过一节],要么太多[阅读下一节的一部分]。它基本上需要阅读我从银行对账单中提取的文本。我已经尝试过更多地阅读正则表达式,但是我仍然不知道该怎么做。
下面是一些示例,让你们了解我正在尝试做的事情。
_4XXXXXXXXXXXXXX9_
_SOU THE HOME DEPOT 431 POMPANO BEACH * FL
AUT 020112 DDA PURCHASE_
_2/1_DEBIT POS_3.15_
下划线基本上是我要提取的部分。基本上除了 DEBIT POS 之外的所有东西。
我正在使用的正则表达式是:
\A
(?<SerialNumber>\b[0-9]{13,16}\b)
(?<Description>.) 'PROBLEM HERE'
(?<PostingDate>
(?:1[0-2]|[1-9])/(?:3[01]|[12][0-9]|[1-9]))
(?<Amount>[,0-9]+\.[0-9]{2})
\Z
我无法将描述设置为任何长度的字符,因为我不知道文本部分的最大长度。我也不知道是2行描述还是1行。这主要让我感到困惑。