我正在尝试解析以下文件(从本地银行导出的交易):
Clnr Kontonr Konto Valuta Bokföringsdatum Transaktionsdatum Referens Kontohändelse Belopp
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 Hyresgästför Autogiro -15,00
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 SPOTIFY SPOTIFY Kortköp/uttag -19,00
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 +46123456789 Swish mottagen 80,00
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 PRIS NYCKELKUND Debiteringsavgift -49,00
12345 1234567890 vardagskonto SEK 13-09-27 13-09-27 12345678 direktbetalning -301,00
12345 1234567890 vardagskonto SEK 13-09-27 13-09-27 Unionen Bg-bet. via internet -125,00
12345 1234567890 vardagskonto SEK 13-09-26 13-09-26 123456789012345 Överföring -1 000,00
但我似乎无法为它创建一个合适的正则表达式。目标是提取第 5、6、7 和 9 列(如果可以全部提取,那当然是一个奖励),但第 7 列是非常棘手的,因为文件不是 CSV 并且第 7 列可以包含多个词。第 8 列是不可预测的,但我想我在上面的例子中找到了大部分相关的可能性。
有关如何成功解析此文件的任何提示?显然我的正则表达式是不够的。:-(
如果它有任何区别,我希望它可以在 Python 甚至 POSIX(grep/sed/etc)中解决。