pyparsing - pyparsing嵌套赋值

Question

我有一组 500-600 个文件，我想搜索并提取数据。我正在尝试使用 pyparsing，但成功非常有限。一个文件中只有 3 件事：(1) 注释，(2) 简单赋值和 (3) 嵌套赋值。嵌套深度约为 6 层。

我的目标是查看 3 级深度字段中的特定值，如果它具有特定值，则从属于同一 2 级字段的另一个 3 级字段中提取一个值。

首先，pyparsing 是执行此操作的正确工具吗？如果没有其他建议？

我知道如何构建文件列表并对其进行迭代。让我展示一个示例文件，然后展示我正在尝试的代码。

# TOP_OBJECT ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
TOP_OBJECT=
(
    obj_fmt=
    (
    obj_name="foo"
    obj_cre_date=737785182  # = Tue May 18 23:19:42 1993
    opj_data=
    (
        a="continue"
        b="quit"
    )
    obj_version=264192  # = Version 4.8.0
    )

# LEVEL1_OBJECT ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    LEVEL1_OBJECT=
    (
        OBJ_part=
        (
        obj_type=1005
        obj_size=120
        )

# LEVEL2_OBJECT ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
        LEVEL2_OBJECT_A=
        (
            OBJ_part=
            (
            obj_type=3001
            obj_size=128
            )

            Another_part=
            (
                another_attr=
                (
                another_style=0
                another_param=2
                )
            )
        ) ### End of LEVEL2_OBJECT_A ###
# LEVEL2_OBJECT ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
        LEVEL2_OBJECT_B=
        (
            OBJ_part=
            (
            obj_type=3005
            obj_size=128
            )

            Another_part=
            (
                another_attr=
                (
                another_style=0
                another_param=8
                )
            )
        ) ### End of LEVEL2_OBJECT_B ###
    ) ### End of LEVEL1 OBJECT
) ### End of TOP_OBJECT ###

我消化文件的代码如下所示：

from pyparsing import *

def Syntax():
    comment = Group("#" + restOfLine).suppress()
    eq = Literal('=')
    lpar  = Literal( '(' ).suppress()
    rpar  = Literal( ')' ).suppress()
    num = Word(nums)
    var = Word(alphas + "_")
    simpleAssign = var +  eq
    nestedAssign = Group(lpar + OneOrMore(simpleAssign) + rpar)
    expr = Forward()
    atom = nestedAssign | simpleAssign
    expr << atom 
    expr.ignore(comment)
    return expr

def main():

    expr = Syntax()
    results = expr.parseFile( "for_show.asc" )
    print results

if __name__ == '__main__':
    main()

我的结果没有下降：['TOP_OBJECT', '=']

现在我不处理带引号的字符串或数字，只是试图理解解析嵌套列表。

score 1 · Accepted Answer

大多数情况下，您的解析器中只有一些空白 - 与当前代码相比，请参阅注释掉的原始代码：

def Syntax():
    comment = Group("#" + restOfLine).suppress()
    eq = Literal('=')
    lpar  = Literal( '(' ).suppress()
    rpar  = Literal( ')' ).suppress()
    num = Word(nums)
    #~ var = Word(alphas + "_")
    var = Word(alphas + "_", alphanums+"_")
    #~ simpleAssign = var +  eq
    expr = Forward()
    simpleAssign = var +  eq + (num | quotedString)
    #~ nestedAssign = Group(lpar + OneOrMore(simpleAssign) + rpar)
    nestedAssign = var +  eq + Group(lpar + OneOrMore(expr) + rpar)
    atom = nestedAssign | simpleAssign
    expr << atom 
    expr.ignore(comment)
    return expr

这给出了：

['TOP_OBJECT',
 '=',
 ['obj_fmt',
  '=',
  ['obj_name',
   '=',
   '"foo"',
   'obj_cre_date',
   '=',
   '737785182',
   'opj_data',
   '=',
   ['a', '=', '"continue"', 'b', '=', '"quit"'],
   'obj_version',
   '=',
   '264192'],
  'LEVEL1_OBJECT',
  '=',
  ['OBJ_part',
   '=',
   ['obj_type', '=', '1005', 'obj_size', '=', '120'],
   'LEVEL2_OBJECT_A',
   '=',
   ['OBJ_part',
    '=',
    ['obj_type', '=', '3001', 'obj_size', '=', '128'],
    'Another_part',
    '=',
    ['another_attr',
     '=',
     ['another_style', '=', '0', 'another_param', '=', '2']]],
   'LEVEL2_OBJECT_B',
   '=',
   ['OBJ_part',
    '=',
    ['obj_type', '=', '3005', 'obj_size', '=', '128'],
    'Another_part',
    '=',
    ['another_attr',
     '=',
     ['another_style', '=', '0', 'another_param', '=', '8']]]]]]

如果你expr用 Group 包裹里面的nestedAssign 的 OneOrMore

    nestedAssign = var +  eq + Group(lpar + OneOrMore(Group(expr)) + rpar)

，我认为您会为重复的嵌套分配获得更好的结构：

['TOP_OBJECT',
 '=',
 [['obj_fmt',
   '=',
   [['obj_name', '=', '"foo"'],
    ['obj_cre_date', '=', '737785182'],
    ['opj_data', '=', [['a', '=', '"continue"'], ['b', '=', '"quit"']]],
    ['obj_version', '=', '264192']]],
  ['LEVEL1_OBJECT',
   '=',
   [['OBJ_part',
     '=',
     [['obj_type', '=', '1005'], ['obj_size', '=', '120']]],
    ['LEVEL2_OBJECT_A',
     '=',
     [['OBJ_part',
       '=',
       [['obj_type', '=', '3001'], ['obj_size', '=', '128']]],
      ['Another_part',
       '=',
       [['another_attr',
         '=',
         [['another_style', '=', '0'], ['another_param', '=', '2']]]]]]],
    ['LEVEL2_OBJECT_B',
     '=',
     [['OBJ_part',
       '=',
       [['obj_type', '=', '3005'], ['obj_size', '=', '128']]],
      ['Another_part',
       '=',
       [['another_attr',
         '=',
         [['another_style', '=', '0'], ['another_param', '=', '8']]]]]]]]]]]

此外，您最初发布的代码包含 TAB，我发现它们比它们的价值更麻烦，最好使用 4 空格缩进。

pyparsing - pyparsing嵌套赋值

1 回答 1

Related

Reference