我正在用 Python 编写一个日志收集/分析应用程序,我需要编写一个“规则引擎”来匹配和处理日志消息。
它需要具有:
- 消息本身的正则表达式匹配
- 消息严重性/优先级的算术比较
- 布尔运算符
我设想一个示例规则可能是这样的:
(message ~ "program\\[\d+\\]: message" and severity >= high) or (severity >= critical)
我正在考虑使用PyParsing或类似方法来实际解析规则并构造解析树。
我想到的当前(尚未实现)设计是为每种规则类型设置类,并根据解析树构造并将它们链接在一起。然后每个规则将有一个“匹配”方法,该方法可以返回一个消息对象,无论它是否匹配规则。
很快,类似:
class RegexRule(Rule):
def __init__(self, regex):
self.regex = regex
def match(self, message):
return self.regex.match(message.contents)
class SeverityRule(Rule):
def __init__(self, operator, severity):
self.operator = operator
def match(self, message):
if operator == ">=":
return message.severity >= severity
# more conditions here...
class BooleanAndRule(Rule):
def __init__(self, rule1, rule2):
self.rule1 = rule1
self.rule2 = rule2
def match(self, message):
return self.rule1.match(message) and self.rule2.match(message)
然后,这些规则类将根据消息的解析树链接在一起,并在顶部规则上调用 match() 方法,该方法将向下级联,直到所有规则都被评估。
我只是想知道这是否是一种合理的方法,或者我的设计和想法是否完全不合时宜?不幸的是,我从来没有机会在大学学习编译器设计课程或类似的课程,所以我几乎是自己想出了这些东西。
在这些事情上有一些经验的人可以插话并评估这个想法吗?
编辑: 到目前为止有一些很好的答案,这里有一些澄清。
该程序的目的是从网络上的服务器收集日志消息并将它们存储在数据库中。除了收集日志消息外,收集器还将定义一组规则,这些规则将根据条件匹配或忽略消息,并在必要时标记警报。
我看不到规则的复杂性超过中等,它们将被应用在一个链(列表)中,直到匹配的警报或忽略规则被命中。但是,这部分与问题不太相关。
就语法接近 Python 语法而言,是的,这是真的,但是我认为很难将 Python 过滤到用户不会无意中使用不希望的规则做一些疯狂的事情的程度。