20

我正在开发一个计算器,它接受字符串表达式并对其进行评估。我有一个函数,它使用正则表达式搜索数学函数的表达式,检索参数,查找函数名称并对其进行评估。我遇到的问题是,如果我知道会有多少参数,我只能这样做,我无法正确使用正则表达式。如果我只是按字符拆分(and)字符的内容,,那么我不能在该参数中调用其他函数。

这是函数匹配模式:\b([a-z][a-z0-9_]*)\((..*)\)\b

它只适用于一个参数,我可以为每个参数创建一个组,不包括嵌套函数内部的参数吗?例如,它将匹配:并为:和func1(2 * 7, func2(3, 5))创建捕获组:2 * 7func2(3, 5)

这是我用来评估表达式的函数:

    /// <summary>
    /// Attempts to evaluate and store the result of the given mathematical expression.
    /// </summary>
    public static bool Evaluate(string expr, ref double result)
    {
        expr = expr.ToLower();

        try
        {
            // Matches for result identifiers, constants/variables objects, and functions.
            MatchCollection results = Calculator.PatternResult.Matches(expr);
            MatchCollection objs = Calculator.PatternObjId.Matches(expr);
            MatchCollection funcs = Calculator.PatternFunc.Matches(expr);

            // Parse the expression for functions.
            foreach (Match match in funcs)
            {
                System.Windows.Forms.MessageBox.Show("Function found. - " + match.Groups[1].Value + "(" + match.Groups[2].Value + ")");

                int argCount = 0;
                List<string> args = new List<string>();
                List<double> argVals = new List<double>();
                string funcName = match.Groups[1].Value;

                // Ensure the function exists.
                if (_Functions.ContainsKey(funcName)) {
                    argCount = _Functions[funcName].ArgCount;
                } else {
                    Error("The function '"+funcName+"' does not exist.");
                    return false;
                }

                // Create the pattern for matching arguments.
                string argPattTmp = funcName + "\\(\\s*";

                for (int i = 0; i < argCount; ++i)
                    argPattTmp += "(..*)" + ((i == argCount - 1) ? ",":"") + "\\s*";
                argPattTmp += "\\)";

                // Get all of the argument strings.
                Regex argPatt = new Regex(argPattTmp);

                // Evaluate and store all argument values.
                foreach (Group argMatch in argPatt.Matches(match.Value.Trim())[0].Groups)
                {
                    string arg = argMatch.Value.Trim();
                    System.Windows.Forms.MessageBox.Show(arg);

                    if (arg.Length > 0)
                    {
                        double argVal = 0;

                        // Check if the argument is a double or expression.
                        try {
                            argVal = Convert.ToDouble(arg);
                        } catch {
                            // Attempt to evaluate the arguments expression.
                            System.Windows.Forms.MessageBox.Show("Argument is an expression: " + arg);

                            if (!Evaluate(arg, ref argVal)) {
                                Error("Invalid arguments were passed to the function '" + funcName + "'.");
                                return false;
                            }
                        }

                        // Store the value of the argument.
                        System.Windows.Forms.MessageBox.Show("ArgVal = " + argVal.ToString());
                        argVals.Add(argVal);
                    }
                    else
                    {
                        Error("Invalid arguments were passed to the function '" + funcName + "'.");
                        return false;
                    }
                }

                // Parse the function and replace with the result.
                double funcResult = RunFunction(funcName, argVals.ToArray());
                expr = new Regex("\\b"+match.Value+"\\b").Replace(expr, funcResult.ToString());
            }

            // Final evaluation.
            result = Program.Scripting.Eval(expr);
        }
        catch (Exception ex)
        {
            Error(ex.Message);
            return false;
        }

        return true;
    }

    ////////////////////////////////// ---- PATTERNS ---- \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\

    /// <summary>
    /// The pattern used for function calls.
    /// </summary>
    public static Regex PatternFunc = new Regex(@"([a-z][a-z0-9_]*)\((..*)\)");

如您所见,构建正则表达式以匹配参数的尝试非常糟糕。它不起作用。

我要做的就是从表达式中提取2 * 7和提取,但它也必须适用于具有不同参数计数的函数。如果有办法在不使用正则表达式的情况下做到这一点,那也很好。func2(3, 5)func1(2 * 7, func2(3, 5))

4

5 回答 5

37

有一个简单的解决方案和一个更高级的解决方案(在edit之后添加)来处理更复杂的功能。

为了实现您发布的示例,我建议分两步执行此操作,第一步是提取参数(正则表达式在最后解释):

\b[^()]+\((.*)\)$

现在,解析参数。

简单的解决方案

使用以下方法提取参数:

([^,]+\(.+?\))|([^,]+)

以下是一些 C# 代码示例(所有断言都通过):

string extractFuncRegex = @"\b[^()]+\((.*)\)$";
string extractArgsRegex = @"([^,]+\(.+?\))|([^,]+)";

//Your test string
string test = @"func1(2 * 7, func2(3, 5))";

var match = Regex.Match( test, extractFuncRegex );
string innerArgs = match.Groups[1].Value;
Assert.AreEqual( innerArgs, @"2 * 7, func2(3, 5)" );
var matches = Regex.Matches( innerArgs, extractArgsRegex );            
Assert.AreEqual( matches[0].Value, "2 * 7" );
Assert.AreEqual( matches[1].Value.Trim(), "func2(3, 5)" );

正则表达式的解释。参数提取为单个字符串:

\b[^()]+\((.*)\)$

在哪里:

  • [^()]+不是开始,结束括号的字符。
  • \((.*)\)括号内的所有内容

args 提取:

([^,]+\(.+?\))|([^,]+)

在哪里:

  • ([^,]+\(.+?\))不是逗号的字符后跟括号中的字符。这将获取 func 参数。注意+?所以比赛是懒惰的,并在第一次相遇时停止)。
  • |([^,]+)如果前一个不匹配,则匹配不是逗号的连续字符。这些比赛分组。

更先进的解决方案

现在,这种方法有一些明显的限制,例如它匹配第一个右括号,所以它不能很好地处理嵌套函数。对于更全面的解决方案(如果您需要),我们需要使用平衡组定义(正如我在此编辑之前提到的)。出于我们的目的,平衡组定义允许我们跟踪左括号的实例并减去右括号的实例。本质上,开括号和右括号将在搜索的平衡部分相互抵消,直到找到最终的右括号。也就是说,匹配将继续,直到括号平衡并找到最后的右括号。

因此,提取参数的正则表达式现在是(函数提取可以保持不变):

(?:[^,()]+((?:\((?>[^()]+|\((?<open>)|\)(?<-open>))*\)))*)+

这里有一些测试用例来展示它的实际效果:

string extractFuncRegex = @"\b[^()]+\((.*)\)$";
string extractArgsRegex = @"(?:[^,()]+((?:\((?>[^()]+|\((?<open>)|\)(?<-open>))*\)))*)+";

//Your test string
string test = @"func1(2 * 7, func2(3, 5))";

var match = Regex.Match( test, extractFuncRegex );
string innerArgs = match.Groups[1].Value;
Assert.AreEqual( innerArgs, @"2 * 7, func2(3, 5)" );
var matches = Regex.Matches( innerArgs, extractArgsRegex );
Assert.AreEqual( matches[0].Value, "2 * 7" );
Assert.AreEqual( matches[1].Value.Trim(), "func2(3, 5)" );

//A more advanced test string
test = @"someFunc(a,b,func1(a,b+c),func2(a*b,func3(a+b,c)),func4(e)+func5(f),func6(func7(g,h)+func8(i,(a)=>a+2)),g+2)";
match = Regex.Match( test, extractFuncRegex );
innerArgs = match.Groups[1].Value;
Assert.AreEqual( innerArgs, @"a,b,func1(a,b+c),func2(a*b,func3(a+b,c)),func4(e)+func5(f),func6(func7(g,h)+func8(i,(a)=>a+2)),g+2" );
matches = Regex.Matches( innerArgs, extractArgsRegex );
Assert.AreEqual( matches[0].Value, "a" );
Assert.AreEqual( matches[1].Value.Trim(), "b" );            
Assert.AreEqual( matches[2].Value.Trim(), "func1(a,b+c)" );
Assert.AreEqual( matches[3].Value.Trim(), "func2(a*b,func3(a+b,c))" );
Assert.AreEqual( matches[4].Value.Trim(), "func4(e)+func5(f)" );
Assert.AreEqual( matches[5].Value.Trim(), "func6(func7(g,h)+func8(i,(a)=>a+2))" );
Assert.AreEqual( matches[6].Value.Trim(), "g+2" );

请特别注意,该方法现在非常先进:

someFunc(a,b,func1(a,b+c),func2(a*b,func3(a+b,c)),func4(e)+func5(f),func6(func7(g,h)+func8(i,(a)=>a+2)),g+2)

因此,再次查看正则表达式:

(?:[^,()]+((?:\((?>[^()]+|\((?<open>)|\)(?<-open>))*\)))*)+

总之,它以不是逗号或括号的字符开头。然后如果参数中有括号,它匹配并减去括号,直到它们平衡。然后它会尝试重复该匹配,以防参数中有其他函数。然后它进入下一个参数(在逗号之后)。详细地:

  • [^,()]+匹配任何不是 ',()'
  • ?:表示非捕获组,即不将匹配项存储在组中的括号内。
  • \(表示从左括号开始。
  • ?>意味着原子分组-本质上,这意味着它不记得回溯位置。这也有助于提高性能,因为尝试不同组合的退步次数更少。
  • [^()]+|表示除左括号或右括号之外的任何内容。紧随其后的是 | (或者)
  • \((?<open>)|这是好东西,并说 match '(' 或
  • (?<-open>)这是更好的东西,说匹配')'并平衡'('。这意味着匹配的这部分(第一个括号之后的所有内容)将继续直到所有内部括号匹配。没有平衡表达式, match 将在第一个右括号上结束。关键是引擎没有将这个 ')' 与最终的 ')' 匹配,而是从匹配的 '(' 中减去它。当没有更多未完成的 '(', -open 失败,因此可以匹配最终的 ')'。
  • 正则表达式的其余部分包含组的右括号和重复(+ ),它们分别是:重复内括号匹配 0 次或更多次,重复全括号搜索 0 次或更多次(0 允许不带括号的参数)并重复完整匹配 1 次或更多次(允许 foo(1)+foo(2))

最后一个点缀:

如果您添加(?(open)(?!))到正则表达式:

(?:[^,()]+((?:\((?>[^()]+|\((?<open>)|\)(?<-open>))*(?(open)(?!))\)))*)+

(?!) 如果 open 捕获了某些东西(没有被减去),它将总是失败,即如果有一个左括号而没有右括号,它总是会失败。这是测试平衡是否失败的有用方法。

一些注意事项:

  • 当最后一个字符是 ')' 时,\b 将不匹配,因为它不是单词字符,并且 \b测试单词字符边界,因此您的正则表达式将不匹配。
  • 虽然正则表达式很强大,但除非你是大师中的大师,否则最好保持表达式简单,否则它们很难维护,也很难让其他人理解。这就是为什么有时最好将问题分解为子问题和更简单的表达式,让语言做一些它擅长的非搜索/匹配操作。因此,您可能希望将简单的正则表达式与更复杂的代码混合使用,反之亦然,具体取决于您的舒适度。
  • 这将匹配一些非常复杂的函数,但它不是函数的词法分析器。
  • 如果您可以在参数中包含字符串,并且字符串本身可以包含括号,例如“go(...”,那么您将需要修改正则表达式以将字符串从比较中取出。与注释相同。
  • 平衡组定义的一些链接:这里这里这里这里

希望有帮助。

于 2013-09-20T03:25:03.757 回答
5

这个正则表达式做你想要的:

^(?<FunctionName>\w+)\((?>(?(param),)(?<param>(?>(?>[^\(\),"]|(?<p>\()|(?<-p>\))|(?(p)[^\(\)]|(?!))|(?(g)(?:""|[^"]|(?<-g>"))|(?!))|(?<g>")))*))+\)$

粘贴到代码中时不要忘记转义反斜杠和双引号。

它将正确匹配双引号、内部函数和数字中的参数,如下所示:
f1(123,"df""j"" , dhf",abc12,func2(),func(123,a>2))

参数堆栈将包含
123
"df""j"" , dhf"
abc12
func2()
func(123,a>2)

于 2017-03-17T15:07:20.630 回答
4

我很抱歉打破了 RegEx 的泡沫,但这是仅使用正则表达式无法有效完成的事情之一。

您正在实现的基本上是支持子表达式和参数列表的运算符优先级解析器。该语句被处理为令牌流 - 可能使用正则表达式 - 子表达式作为高优先级操作处理。

使用正确的代码,您可以将其作为对完整令牌流的迭代来执行,但递归解析器也很常见。无论哪种方式,您都必须能够在每个子表达式入口点(a或令牌)有效地推送状态并重新开始解析(,并将结果推送到解析器链的子表达式出口点(或令牌)。,<function_name>(),

于 2013-09-20T04:14:51.863 回答
0

正则表达式有一些新的(相对非常新的)特定于语言的增强功能,可以将上下文无关语言与“正则表达式”匹配,但在使用更常用于此类任务的工具时,您会发现更多资源和更多帮助:

最好使用 ANTLR、LEX+YACC、FLEX+BISON 等解析器生成器或任何其他常用的解析器生成器。它们中的大多数都附带了有关如何构建支持分组和函数调用的简单计算器的完整示例。

于 2013-09-21T00:12:12.953 回答
0

正则表达式不会让你完全摆脱这个麻烦......

由于您有嵌套括号,因此您需要修改代码以(计入). 当您遇到 时(,您需要记下位置然后向前看,为您找到的每个额外 (的计数器增加一个计数器,并为您找到的每一个减少它)。当您的计数器为 0 并且您找到 a)时,这是您的函数参数块的结尾,然后您可以解析括号之间的文本。您还可以, 在计数器为 0 时拆分文本以获取函数参数。

如果在计数器为 0 时遇到字符串的结尾,则会"(" without ")"出错。

然后,您在左括号和右括号以及任何逗号之间获取文本块,并对每个参数重复上述操作。

于 2013-09-20T00:30:32.517 回答