我目前需要弄清楚如何使用正则表达式,并且到了一个我似乎没有弄清楚的点:作为源的测试字符串(它们实际上来自 OCR'd PDF):
string1 = 'Beleg-Nr.:12123-23131'; // no spaces after the colon
string2 = 'Beleg-Nr.: 12121-214331'; // a tab after the colon
string3 = 'Beleg-Nr.: 12-982831'; // a tab and spaces after the colon
我想明确地得到这些数字。为此,我使用这种模式:
pattern = '/(?<=Beleg-Nr\.:[ \t]*)(.*)
这将为我提供纯数字string1
,string2
但无法正常工作string3
(它在数字前给了我额外的空格)。
我在这里想念什么?
编辑:感谢所有有用的建议。即时 OCR 的软件能够在正则表达式中自行抑制空格。这成功了。结果模式是:
(?<=Beleg-Nr\.:[\s]*)(.*)