1

我目前正在编写一个正则表达式来查找字符串中的单位和大小(或者它可以作为维度)。例如:“产品:A,2 x 3.5 加仑瓶”

为简单起见,我删除了所有空格,因此变为:

“产品:A,2x3.5gallonbottles”

我的正则表达式如下:

numAndSize = re.compile(r'\d+[xX]\d+(\.\d+)?')

但是当我尝试使用 findall 时,会发生这种情况:

In [47]: numAndSize.findall("Product:A,2x3.5gallonbottles")
Out[47]: ['.5']

我 - 只 - 得到这个字符串中的 '.5',而不是整个表达式

但是,使用搜索和组可以按预期工作:

In [50]: numAndSize.search("Product:A,2x3.5gallonbottles").group(0)
Out[50]: '2x3.5'

从那里,我尝试将我的正则表达式更改为不包含可选的小数,然后在上面运行 findall。

In [51]: numAndSize = re.compile(r'\d+[xX]\d+')
In [52]: numAndSize.findall("Product:A,2x3.5gallonbottles")
Out[52]: ['2x3']

这种行为背后有原因吗?出于我的目的,我当然可以使用 .search().group(),但我个人喜欢 findall,因为输出以干净的格式返回了更多信息。

4

2 回答 2

2

如果正则表达式包含任何捕获组,re.findall()将返回这些组而不是整个匹配。要获得整个比赛,请使用非捕获组:

>>> numAndSize = re.compile(r'\d+[xX]\d+(?:\.\d+)?')
>>> numAndSize.findall("Product:A,2x3.5gallonbottles")
['2x3.5']

或者,如果您可以利用这种行为让它返回一个维度(或单位或其他任何东西)的元组:

>>> numAndSize = re.compile(r'(\d+)[xX](\d+(?:\.\d+)?)')
>>> numAndSize.findall("Product:A,2x3.5gallonbottles")
[('2', '3.5')]
于 2013-05-23T18:38:06.543 回答
1

您正在使用创建捕获组()文件说

如果模式中存在一个或多个组,则返回组列表;如果模式有多个组,这将是一个元组列表。

如果您实际上不想捕获小数部分,请使用非捕获组:

numAndSize = re.compile(r'\d+[xX]\d+(?:\.\d+)?')
于 2013-05-23T18:38:18.320 回答