python - PyParsing一个表示函数的字符串

Question

我有一个看起来像这样的数据：

data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading, singing", "drawing"], is_minor=True)'

我写的语法解析规则如下：

quotedString.setParseAction(removeQuotes)
list_of_names = delimitedList(quotedString)

person_start = Literal("person(").suppress()
first = Literal("firstname") + Suppress("=") + quotedString
lastname = Literal("lastname") + Suppress("=") + quotedString
dob = Literal("dob") + Suppress("=") + quotedString
hobbies = Literal("hobbies") + Suppress("=[") + list_of_names + Suppress("]")
is_minor = Literal("is_minor") + Suppress("=") + oneOf("True False")
person_end = Suppress(")")
comma = Literal(",").suppress()

my_data = person_start + first +  comma + last + comma + dob +comma + hobbies + comma + is_minor + person_end
result = my_data.parseString(data)

我的问题是3：

上述规则有效，但我想确定是否有更好的方法来编写它。
在我的数据中，不能保证顺序，因此姓氏可以在名字之前，我如何确保这一点。
最终在解析后我想把所有东西都作为一个字典，所以 key:value first:"bob" hobbies:["reading", "singing", "drawing"] ...... 最好的方法是什么。

score 1 · Accepted Answer

你真的应该把它分解，这样它就不太依赖文字了......所以寻找这样的标记“X = Y”让它更通用......

或者，另一种选择（因为看起来您正在尝试解析 Python 函数调用），类似于以下内容：

data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading, singing", "drawing"], is_minor=True)'

import ast
d = {}
for kw in ast.parse(data).body[0].value.keywords:
    if isinstance(kw.value, ast.List):
        d[kw.arg] = [el.s for el in kw.value.elts]
    else:
        d[kw.arg] = getattr(kw.value, {ast.Name: 'id', ast.Str: 's'}[type(kw.value)])

# {'dob': '2010-0206', 'lastname': 'stewart', 'is_minor': 'True', 'firstame': 'bob', 'hobbies': ['reading, singing', 'drawing']}

score 1 · Accepted Answer

您发布的代码中有一些小错别字（firstame="bob"在 data vs. firstname="bob", lastnamevs.中last），但是在清理它们之后，它看起来还不错。如果你打印出结果，你会得到：

['firstname', 'bob', 'lastname', 'stewart', 'dob', '2010-0206', 
 'hobbies', 'reading, singing', 'drawing', 'is_minor', 'True']

首先，让我建议，正如您将list_of_names（从您之前的 SO 问题 pyparsing string of quoted names）定义为可能的值类型一样，您定义一个布尔值来解析 True/False 值。使用oneOf很好，让我们添加一个解析操作，将字符串“True”和“False”转换为实际的 Python 布尔值：

boolean_value = oneOf("True False").setParseAction(lambda t: t[0]=='True')

这类似于removeQuotes在quotedString 上使用。

现在，解析结果现在看起来像：

['firstname', 'bob', 'lastname', 'stewart', 'dob', '2010-0206', 
 'hobbies', 'reading, singing', 'drawing', 'is_minor', True]

请注意，True 现在不是字符串，而是 Python 值True（值周围没有引号）。

现在到你问题的第一部分，如何把它变成一个字典。Pyparsing 允许您为语法的不同部分定义结果名称，以便在解析数据后，您可以按名称访问这些值。这样做的语法过去是调用方法setResultsName：

my_data = person_start + first.setResultsName("firstname") + 
          last.setResultsName("lastname") + ...

我发现这有点麻烦，并且所有“.setResultsName”方法调用都难以阅读表达式。所以不久前我更改了 API 以接受这种语法：

my_data = person_start + first("firstname") + last("lastname") + ...

但是您定义为first,last等的内容不仅包含值，还包含标签。

简化语法的一种方法是创建一个自己的小辅助方法，我们称之为named_parameter：

def named_parameter(label, paramtype):
    expr = Literal(label) + Suppress('=') + paramtype(label)
    return expr

请注意，label它用于指定文字字符串和值的结果名称。现在您可以将语法定义为：

first = named_parameter("firstname", quotedString)
last = named_parameter("lastname", quotedString)
dob = named_parameter("dob", quotedString)
hobbies = named_parameter("hobbies", Suppress("[") + list_of_names + Suppress("]"))
is_minor = named_parameter("is_minor", boolean_value)

使用命名的值，您可以将解析结果作为 Python dict 访问：

print result["firstname"]
print result["hobbies"]

印刷：

bob
['reading, singing', 'drawing']

或者，如果您愿意，也可以使用对象属性表示法：

print result.firstname
print result.hobbies

为了回答您问题的第二部分，您询问了如何处理参数可能乱序的情况。最简单的方法是delimitedList再次使用：

parameter = first | last | dob | hobbies | is_minor
my_data = person_start + delimitedList(parameter) + person_end

这不是一个严格的解析器，它会接受不包含所有参数的参数列表，或者具有重复参数的列表。但是对于现有的有效代码，它将以任何顺序解析带有参数的列表。

这是最终的解析器：

quotedString.setParseAction(removeQuotes)
list_of_names = delimitedList(quotedString)
boolean_value = oneOf("True False").setParseAction(lambda t: t[0]=='True')

def named_parameter(label, paramtype):
    expr = Literal(label) + Suppress('=') + paramtype(label)
    return expr

person_start = Literal("person(").suppress()
first = named_parameter("firstname", quotedString)
last = named_parameter("lastname", quotedString)
dob = named_parameter("dob", quotedString)
hobbies = named_parameter("hobbies", Suppress("[") + list_of_names + Suppress("]"))
is_minor = named_parameter("is_minor", boolean_value)
person_end = Suppress(")")
comma = Literal(",").suppress()

parameter = first | last | dob | hobbies | is_minor
my_data = person_start + delimitedList(parameter) + person_end

python - PyParsing一个表示函数的字符串

2 回答 2

Related

Reference