python - 正则表达式 Python 数据操作——NoneType 对象

Question

我有一个 .txt 文件，其中包含以下格式的数据：

pq1000007 35 2 237493054 0.013328573

我正在尝试使用将捕获第一个、第三个和最后一个数字的正则表达式，但前提是最后一个数字大于 0.4。出于某种原因，我收到“NoneType 对象没有属性‘组’”的消息。有任何想法吗？

代码：

InFileName = "PerkQP_CHGV_SCZ.txt"
InFile = open(InFileName, 'r')

OutFileName='PAZ_OUT' + ".txt"
OutFile=open(OutFileName, 'w')


for Line in InFile:
    match = re.search('(\w+)\s\d+\s(\d+)\s\d+\d+\s(\d+\.\d+)', Line)
    if match.group(2) > 0.4:
        c = match.group()
        print(c)
        OutFile.write(c+"\n")

InFile.close()
OutFile.close()

score 1 · Accepted Answer

如果搜索结果为无，则表示您的正则表达式不匹配。它似乎适用于您提供的示例，但文件中的实际数据可能与模式不匹配。（另外，我看到你的正则表达式包含\d+\d+应该只是\d+.）

此外match.group返回一个字符串。您需要将其转换为数字（例如，float(match.group(2))将其与数字 0.4.

score 1 · Accepted Answer

几个问题：

正则表达式匹配是一个字符串，因此您无法将其与浮点数进行有意义的比较（事实上，在 Python 3 中，这样做是非法的）。在 Python 2 中，任何字符串总是比较大于浮点数（因为"str"在 ASCII 中高于"float"。是的，这条规则没有意义。很好，Python 3 取消了它）。

然后，该正则表达式中的最后一个数字在第三个 捕获组中，所以你需要做

if float(match.group(3)) > 0.4:

然后，您应该在正则表达式中使用逐字字符串 ( r"...")。

最后，\d+\d+当然是多余的，\d+会做的。

match = re.search(r'(\w+)\s\d+\s(\d+)\s\d+\s(\d+\.\d+)', Line)

此正则表达式与您提供的示例行匹配，因此您的错误消息（表示不匹配）必须具有不同的来源。也许您的文件中某处有一行与正则表达式不匹配。在这种情况下，您可以像这样构建您的程序：

for Line in InFile:
    match = re.search(r'(\w+)\s\d+\s(\d+)\s\d+\s(\d+\.\d+)', Line)
    if match:
        if float(match.group(3)) > 0.4:
            # do stuff
        else:
            print "No match: ", Line

python - 正则表达式 Python 数据操作——NoneType 对象

2 回答 2

Related

Reference