我是正则表达式新手,我需要一些帮助。我有代表表格的文本。我知道它将由 7 列组成:
| int | int mixed with -. | unicode string with everything | float | float | int | float |
问题是浮点数是用千位之间的空格表示的(1234,43 => 1 234,43)。此外,字符串可以包含空格并以数字结尾。我尝试了这样的事情(对于每一行都带有新行字符):
regex = re.compile(r"(\d+) ([\d.-]+) (.*) ([\d+ ]?\d+,\d+) ([\d+ ]?\d+,\d+) (\d+) ([\d+ ]?\d+,\d+)$", re.UNICODE)
w = regex.findall(line)
不幸的是,它并不适用于所有情况。一些测试数据:
49 602 DSKOD SMCX 262,59 1 131,30 1 1 131,30
49 602 DSKOD SMCX 3 5 262,59 1 131,30 1 1 131,30
50 61-201 łóćźż 1 2 669,50 334,75 1 334,75
51 1-214 AÓŻĆÓDS" 70,35 350,18 3 105,53
我得到的数千个案例是有问题的:
[]
[]
[(u'50', u'61-201', u'\u0142\xf3\u0107\u017a\u017c 1 2', u'669,50', u'334,75', u'1', u'334,75')]
[(u'51', u'1-214', u'A\xd3\u017b\u0106\xd3DS"', u'70,35', u'350,18', u'3', u'105,53')]
在第三个示例中,我希望2
字符串的末尾位于下一列。你知道有一些线索如何在 Python 2.7 上正确匹配吗?稍后我将与这个 unicode 战斗。