我使用 UiPath Studio 的 OCR 从 PDF 中提取了以下文本。这是相同的文本块重复 3 次,因为它是同一 PDF 页面的原始、重复和三份。
Os bens/serviços foram colocados à disposição do adquirente em 2020-04-16 * Data/Hora início de transporte: 2020-04-16 às 11:52
Total Líquido 500,00
Total de Descontos 500,00
Desconto Documento
Total de IVA 115,00
Total do Documento (EUR) 615,00
IVA Incidência Valor do IVA
Isento
6%
13%
23% 500,00 115,00
b5El-Processado por programa certificado n.º75/AT.
Os bens/serviços foram colocados à disposição do adquirente em 2020-04-16 * Data/Hora início de transporte: 2020-04-16 às 11:52
Total Líquido 500,00
Total de Descontos 500,00
Desconto Documento
Total de IVA 115,00
Total do Documento (EUR) 615,00
IVA Incidência Valor do IVA
Isento
6%
13%
23% 500,00 115,00
b5El-Processado por programa certificado n.º75/AT.
Os bens/serviços foram colocados à disposição do adquirente em 2020-04-16 * Data/Hora início de transporte: 2020-04-16 às 11:52
Total Líquido 500,00
Total de Descontos 500,00
Desconto Documento
Total de IVA 115,00
Total do Documento (EUR) 615,00
IVA Incidência Valor do IVA
Isento
6%
13%
23% 500,00 115,00
b5El-Processado por programa certificado n.º75/AT.
我需要提取“-Processado por programa”后面的 4 个字符代码,但只需要 1 个匹配或第一个匹配。
已经尝试过[^*]+(?=-Processado\spor\sprograma)
,(.*?)(?=-Processado\spor\sprograma)
但输出了 3 场比赛。
当我删除该/g
标志时它起作用了,但我使用的是 UiPath Studio 的 RegEx 提取器,我不知道如何在该程序上删除该标志。