1

我正在用 python 和pyparsing解析一个文件(它是 Matlab 中PSAT的报告文件,但这并不重要)。是我到目前为止所拥有的。我认为这是一团糟,想就如何改进它提出一些建议。具体来说,我应该如何使用 pyparsing 组织我的语法定义?

我应该将所有语法定义都放在一个函数中吗?如果是这样,这将是一个巨大的功能。如果没有,那我该如何打破它。目前,我已将其拆分为文件的各个部分。是否值得大量只从一个地方调用一次的函数。对我来说,两者都不是正确的。

我应该将我所有的输入和输出代码放在一个单独的文件中,以供其他类函数使用吗?这将使课堂的目的更加清晰。

我也很想知道是否有更简单的方法来解析文件、进行一些完整性检查并将数据存储在一个类中。我似乎花了很多时间做这件事。

(如果人们同意,我会接受它足够好的答案或使用 X 而不是 pyparsing )

4

1 回答 1

2

我可以使用单一的大方法来创建你的解析器,而不是像你现在拥有的那样逐步进行。

我可以看到您已经定义了一些有用的辅助实用程序,例如 slot(我猜是“suppress Literal”)、stringtolits 和 decimaltable。这对我来说看起来不错。

我喜欢您使用结果名称,它们确实提高了解析后代码的稳健性。我建议使用 pyparsing 1.4.7 中添加的快捷方式,您可以在其中替换

busname.setResultsName("bus1")

busname("bus1")

这可以使您的代码更加整洁。

我会回顾您的解析操作,看看您在哪里使用数字索引来访问单个标记,然后返回并分配结果名称。这是一种情况,GetStats 返回(ngroup + sgroup).setParseAction(self.process_stats). process_stats 有如下参考:

self.num_load = tokens[0]["loads"]
self.num_generator = tokens[0]["generators"]
self.num_transformer = tokens[0]["transformers"]
self.num_line = tokens[0]["lines"]
self.num_bus = tokens[0]["buses"]
self.power_rate = tokens[1]["rate"]

我喜欢你已经对值和统计数据进行了分组,但请继续给它们命名,例如“network”和“soln”。然后您可以将此解析操作代码编写为(我还转换为 - 对我而言 - 更易于阅读的对象属性表示法,而不是 dict 元素表示法):

self.num_load = tokens.network.loads
self.num_generator = tokens.network.generators
self.num_transformer = tokens.network.transformers
self.num_line = tokens.network.lines
self.num_bus = tokens.network.buses
self.power_rate = tokens.soln.rate

另外,一个风格问题:为什么有时使用显式 And 构造函数,而不是使用 '+' 运算符?

busdef = And([busname.setResultsName("bus1"),
            busname.setResultsName("bus2"),
            integer.setResultsName("linenum"),
            decimaltable("pf qf pl ql".split())])

这很容易写:

busdef = (busname("bus1") + busname("bus2") + 
            integer("linenum") + 
            decimaltable("pf qf pl ql".split()))

总的来说,我认为这对于这种复杂的文件来说是差不多的。我有一种类似的格式(不幸的是,专有的,因此无法共享),其中我以类似于您的方式构建代码的片段,但采用一种大型方法,如下所示:

def parser():
    header = Group(...)
    inputsummary = Group(...)
    jobstats = Group(...)
    measurements = Group(...)
    return header("hdr") + inputsummary("inputs") + jobstats("stats") + measurements("meas")

Group 构造在像这样的大型解析器中特别有用,可以为解析数据的每个部分中的结果名称建立一种命名空间。

于 2009-12-08T14:29:02.827 回答