python - 列表过滤和转换

Question

我有一个库文件名列表，我需要针对正则表达式进行过滤，然后从匹配的文件中提取版本号。这是显而易见的方法：

libs = ['libIce.so.33', 'libIce.so.3.3.1', 'libIce.so.32', 'libIce.so.3.2.0']
versions = []
regex = re.compile('libIce.so\.([0-9]+\.[0-9]+\.[0-9]+)')
for l in libs:
    m = regex.match(l)
    if m:
        versions.append(m.group(1))

这会产生以下列表：

['3.3.1', '3.2.0']

然而，我觉得循环不是很“Python 风格”，并且觉得应该可以用一些智能单线替换上面的“for”循环。建议？

score 19 · Accepted Answer

列表理解怎么样？

In [5]: versions = [m.group(1) for m in [regex.match(lib) for lib in libs] if m] 
In [6]: versions
Out[6]: ['3.3.1', '3.2.0']

score 8 · Accepted Answer

另一个单行只是为了展示其他方式（我也清理了一些正则表达式）：

regex = re.compile(r'^libIce\.so\.([0-9]+\.[0-9]+\.[0-9]+)$')
sum(map(regex.findall, libs), [])

但请注意，您的原始版本比所有建议都更具可读性。值得改变吗？

score 5 · Accepted Answer

你可以这样做：

versions = [m.group(1) for m in [regex.match(l) for l in libs] if m]

我不认为它是非常可读的，虽然......

也许分两步更清楚：

matches = [regex.match(l) for l in line]
versions = [m.group(1) for m in matches if m]

score 1 · Accepted Answer

使用标准 for 循环没有什么不是 Pythonic 的。但是，您可以使用map()函数根据针对列表中的每个项目运行的函数的结果生成新列表。

score 0 · Accepted Answer

对于您的简单案例，您真的不需要为正则表达式而烦恼

>>> libs = ['libIce.so.33', 'libIce.so.3.3.1', 'libIce.so.32', 'libIce.so.3.2.0']
>>> libs
['libIce.so.33', 'libIce.so.3.3.1', 'libIce.so.32', 'libIce.so.3.2.0']
>>> for i in libs:
...   print i.split("so.")
...
['libIce.', '33']
['libIce.', '3.3.1']
['libIce.', '32']
['libIce.', '3.2.0']
>>> for i in libs:
...   print i.split("so.")[-1]
...
33
3.3.1
32
3.2.0
>>>

进一步检查以获取带有“点”的内容。

score 0 · Accepted Answer

这个怎么样：

import re

def matches(regexp, list):
    'Regexp, [str] -> Iterable(Match or None)'
    return (regexp.match(s) for s in list)

libs = ['libIce.so.33', 'libIce.so.3.3.1', 'libIce.so.32', 'libIce.so.3.2.0']
regexp = re.compile('libIce.so\.([0-9]+\.[0-9]+\.[0-9]+)')
versions = [m.group(1) for m in matches(regexp, libs) if m is not None]

>>> print versions
['3.3.1', '3.2.0']

score 0 · Accepted Answer

我能想到的一种方法是将“地图”和列表理解结合起来。
解决方案如下所示：



import re  
libs = ['libIce.so.33', 'libIce.so.3.3.1', 'libIce.so.32', 'libIce.so.3.2.0']  
versions = []  

regex = re.compile('libIce.so\.([0-9]+\.[0-9]+\.[0-9]+)')  

def match(s):  
    m = regex.match(s)  
    if m:  
        return m.group(1)  

versions = [x for x in map(match,libs) if x]

score 0 · Accepted Answer

开始Python 3.8，并引入赋值表达式（PEP 572）（:=运算符），可以在列表推导中使用局部变量，以避免调用两次正则表达式匹配的结果：

# libs = ['libIce.so.33', 'libIce.so.3.3.1', 'libIce.so.32', 'libIce.so.3.2.0']
# pattern = re.compile(r'libIce.so\.([0-9]+\.[0-9]+\.[0-9]+)')
[match.group(1) for lib in libs if (match := pattern.match(lib))]
# ['3.3.1', '3.2.0']

这：

将评估命名pattern.match(lib)为变量match（要么是对象，要么None是re.Match对象）
使用此match命名表达式（None或 a Match）来过滤掉不匹配的元素
match并通过提取第一组 ( match.group(1))在映射值中重复使用。

python - 列表过滤和转换

8 回答 8

Related

Reference