php - 分析正则表达式词法分析器

Question

我在 PHP 中创建了一个路由器，它采用 DSL（基于 Rails 3 路由）并将其转换为正则表达式。它具有可选段（由（嵌套）括号表示）。以下是当前的词法分析算法：

private function tokenize($pattern)
{
    $rules = array(
        self::OPEN_PAREN_TYPE  => '/^(\()/',
        self::CLOSE_PAREN_TYPE => '/^(\))/',
        self::VARIABLE_TYPE    => '/^:([a-z0-9_]+)/',
        self::TEXT_TYPE        => '/^([^:()]+)/',
    );

    $cursor = 0;
    $tokens = array();
    $buffer = $pattern;
    $buflen = strlen($buffer);

    while ($cursor < $buflen)
    {
        $chunk = substr($buffer, $cursor);

        $matched = false;
        foreach ($rules as $type => $rule)
        {
            if (preg_match($rule, $chunk, $matches))
            {
                $tokens[] = array(
                    'type'  => $type,
                    'value' => $matches[1],
                );

                $matched = true;
                $cursor += strlen($matches[0]);
            }
        }

        if (!$matched)
        {
            throw new \Exception(sprintf('Problem parsing route "%s" at char "%d".', $pattern, $cursor));
        }
    }

    return $tokens;
}

我是否缺少任何明显的加速？有什么方法可以完全放弃 preg_* ，或者将正则表达式组合成一种模式，等等？

这是 xhprof 调用图（基准测试使用约 2500 条独特的路线进行测试）：

调用图

我知道最好的解决方案不是为每个请求都调用它（我计划使用 APC 进行缓存等），但希望在未启用 APC 的情况下使用此库的人尽可能高效。

编辑：

我还写了一个快速状态机版本，似乎性能更好。我仍然对任何一个方面的建议持开放态度，因为我相信第一个代码更优雅。

private function tokenize2($pattern)
{
    $buffer = '';
    $invariable = false;

    $tokens = array();
    foreach (str_split($pattern) as $char)
    {
        switch ($char)
        {
            case '(':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
                        'value' => $buffer,
                    );
                    $buffer = '';
                    $invariable = false;
                }

                $tokens[] = array(
                    'type' => self::OPEN_PAREN_TYPE,
                );
                break;
            case ')':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
                        'value' => $buffer,
                    );
                    $buffer = '';
                    $invariable = false;
                }

                $tokens[] = array(
                    'type' => self::CLOSE_PAREN_TYPE,
                );
                break;
            case ':':
                if ($buffer)
                {
                    $tokens[] = array(
                        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
                        'value' => $buffer,
                    );
                    $buffer = '';
                    $invariable = false;
                }

                $invariable = true;
                break;
            default:
                if ($invariable && !(ctype_alnum($char) || '_' == $char ))
                {
                    $invariable = false;
                    $tokens[] = array(
                        'type'  => self::VARIABLE_TYPE,
                        'value' => $buffer,
                    );

                    $buffer = '';
                    $invariable = false;
                }

                $buffer .= $char;
                break;
        }
    }

    if ($buffer)
    {
        $tokens[] = array(
        'type'  => $invariable ? self::VARIABLE_TYPE : self::TEXT_TYPE,
        'value' => $buffer,
        );
        $buffer = '';
    }

    return $tokens;

调用图

出于性能原因，我最终只使用状态机，并使用 APC 缓存整个词法分析过程（因为......为什么不呢）。

如果有人有任何贡献，我会很乐意移动答案。

score 1 · Accepted Answer

有趣的代码:)。

我不太确定您所说的“使用 APC 缓存整个词法分析过程”是什么意思，所以我可能会建议您已经在做什么。

你可以只缓存输入的 URL，以及实际词法分析过程之上的结果吗？您不希望在这里应用任何基于权限的限制，因此缓存是全局的。路线的数量往往是有限的，即使是在具有一些非常热点的大型站点上也是如此。完全绕过词法分析并在任何先前使用的路线上命中缓存。

php - 分析正则表达式词法分析器

1 回答 1

Related

Reference