2

我有一个 Fortran“名称列表”格式的输入文件,我想用 python 正则表达式解析它。最简单的演示方法是用一个虚构的例子:

$VEHICLES
 CARS= 1,
 TRUCKS = 0,
 PLAINS= 0, TRAINS = 0,
 LIB='AUTO.DAT',
C This is a comment
C Data variable spans multiple lines
 DATA=1.2,2.34,3.12,
      4.56E-2,6.78,
$END
$PLOTTING
 PLOT=T,
 PLOT(2)=12,
$END

所以键可以包含常规的变量名字符以及括号和数字。这些值可以是字符串、布尔值(T、F、.T.、.F.、TRUE、FALSE、.TRUE.、.FALSE. 都是可能的)、整数、浮点数或逗号分隔的数字列表. 键用等号连接到它们的值。键值对以逗号分隔,但可以共享一行。对于一长串数字,值可以跨越多行。注释是任何以 C 开头的行。'=' 和 ',' 前后的间距通常不一致。

我想出了一个有效的正则表达式来解析键和值并将它们放入有序字典(需要保留输入的顺序)。

到目前为止,这是我的代码。我已经包含了从阅读文件到保存到字典的所有内容以确保完整性。

import re
from collections import OrderedDict

f=open('file.dat','r')
file_str=f.read()

#Compile regex pattern for requested namelist
name='Vehicles'

p_namelist = re.compile(r"\$"+name.upper()+"(.*?)\$END",flags=re.DOTALL|re.MULTILINE)

#Execute regex on file string and get a list of captured tokens
m_namelist = p_namelist.findall(file_str)

#Check for a valid result
if m_namelist:
    #The text of the desired namelist is the first captured token
    namelist=m_namelist[0]

#Split into lines
lines=namelist.splitlines()

#List comprehension which returns the list of lines that do not start with "C"
#Effectively remove comment lines
lines = [item for item in lines if not item.startswith("C")]

#Re-combine now that comment lines are removed
namelist='\n'.join(lines)

#Create key-value parsing regex
p_item = re.compile(r"([^\s,\=]+?)\s*=\s*([^=]+)(?=[\s,][^\s,\=]+\s*\=|$)",flags=re.DOTALL|re.MULTILINE)

#Execute regex
items = p_item.findall(namelist)

#Initialize namelist ordered dictionary
n = OrderedDict()

#Remove undesired characters from value    
for item in items:
    n[item[0]] = item[1].strip(',\r\n ')

我的问题是我是否正确地处理了这个问题。我意识到有一个 ConfigParser 库,我还没有尝试过。我的重点是正则表达式:

([^\s,\=]+?)\s*=\s*([^=]+)(?=[\s,][^\s,\=]+\s*\=|$)

但我继续并包含其他代码以确保完整性并演示我正在使用它做什么。对于我的正则表达式,因为值可以包含逗号,并且键值对也用逗号分隔,所以没有简单的方法来隔离这些对。我选择使用前瞻来查找下一个键和“=”。这允许“=”和下一个键之间的所有内容都是值。最后,因为这对最后一对不起作用,所以我将“|$”投入到前瞻预测中,这意味着如果没有找到另一个“VALUE=”,则查找字符串的结尾。我认为将值与 [^=]+ 匹配,然后进行前瞻比尝试匹配所有可能的值类型要好。

在写这个问题时,我想出了一个替代正则表达式,它利用了数字是唯一可以在列表中的值这一事实:

 ([^\s,\=]+?)\s*=\s*((?:\s*\d[\d\.\E\+\-]*\s*,){2,}|[^=,]+)

这个匹配两个或多个数字的列表,或者(?:\s*\d[\d\.\E\+\-]*\s*,){2,}下一个逗号之前的任何内容[^=,]

这些有点混乱的正则表达式是解析这样一个文件的最佳方法吗?

4

1 回答 1

3

我建议开发更复杂的解析器。

我偶然发现了实现非常相似的解析器功能的谷歌代码托管项目:Fortran Namelist parser for Python prog/scripts,但它是为不同的格式构建的。我玩了一下并更新了它以支持您示例中的格式结构:

请在 gist 上查看我的版本: Updated Fortran Namelist parser for python https://gist.github.com/4506282

我希望这个解析器能帮助你完成你的项目。

这是解析 FORTRAN 代码示例后脚本生成的示例输出:

{'PLOTTING': 
    {'par': 
        [OrderedDict([('PLOT', ['T']), ('PLOT(2) =', ['12'])])],
    'raw': ['PLOT=T', 'PLOT(2)=12']},
 'VEHICLES': 
    {'par': 
        [OrderedDict([('TRUCKS', ['0']), ('PLAINS', ['0']), ('TRAINS', ['0']), ('LIB', ['AUTO.DAT']), ('DATA', ['1.2', '2.34', '3.12', '4.56E-2', '6.78'])])],
  'raw': 
                ['TRUCKS = 0',
                  'PLAINS= 0, TRAINS = 0',
                  "LIB='AUTO.DAT'",
                  'DATA=1.2,2.34,3.12',
                  '4.56E-2,6.78']}}
于 2013-01-10T22:41:21.900 回答