17

我想知道如何将给定的字符串转换为指定的数组:

细绳

all ("hi there \(option\)", (this, that), other) another

想要的结果(数组)

[0] => all,
[1] => Array(
    [0] => "hi there \(option\)",
    [1] => Array(
        [0] => this,
        [1] => that
    ),
    [2] => other
),
[2] => another

这用于我在 PHP 上制作的一种控制台。我尝试使用preg_match_all但是,我不知道如何在括号内找到括号以“在数组中创建数组”。

编辑

示例中未指定的所有其他字符应视为String.

编辑 2

我忘了提到括号外的所有参数都应该被space字符检测到。

4

7 回答 7

14

10,000 英尺概述

您需要使用小型自定义解析器来完成此操作:代码获取此表单的输入并将其转换为您想要的表单。

在实践中,我发现根据它们的复杂性将这样的解析问题分组到三个类别之一是很有用的:

  1. 琐碎:可以通过几个循环和人性化的正则表达式解决的问题。这个类别很诱人:如果您甚至有点不确定问题是否可以通过这种方式解决,一个好的经验法则是确定它不能。
  2. 简单:需要自己构建一个小型解析器的问题,但仍然足够简单,以至于拿出大炮没有什么意义。如果您需要编写超过 100 行代码,请考虑升级到下一个类别。
  3. 涉及的问题:正式化并使用已经存在的、经过验证的解析器生成器¹是有意义的问题。

我将此特定问题归类为第二类,这意味着您可以像这样处理它:

编写一个小型解析器

定义语法

为此,您必须首先定义——至少是非正式的,用一些简短的注释——你想要解析的语法。请记住,大多数语法都是在某些时候递归定义的。所以假设我们的语法是:

  • 输入是一个序列
  • 序列是一系列零个或多个令牌
  • 标记可以是单词字符串数组
  • 标记由一个或多个空格字符分隔
  • 单词是一系列字母字符 (az )
  • 字符串是用双引号括起来的任意字符序列
  • 数组是由逗号分隔的一系列一个或多个标记

你可以看到我们在一个地方有递归:一个序列可以包含数组,一个数组也是根据一个序列定义的(所以它可以包含更多的数组等)。

像上面那样非正式地处理这件事作为介绍更容易,但如果你正式地进行语法推理,则更容易。

构建词法分析器

掌握了语法,您就知道需要将输入分解为标记,以便对其进行处理。接受用户输入并将其转换为语法定义的各个部分的组件称为词法分析器。词法分析器是愚蠢的;他们只关心输入的“外观”,并不试图检查它是否真的有意义。

这是我为解析上述语法而编写的一个简单的词法分析器(不要将它用于任何重要的事情;可能包含错误):

$input = 'all ("hi there", (this, that) , other) another';

$tokens = array();
$input = trim($input);
while($input) {
    switch (substr($input, 0, 1)) {
        case '"':
            if (!preg_match('/^"([^"]*)"(.*)$/', $input, $matches)) {
                die; // TODO: error: unterminated string
            }

            $tokens[] = array('string', $matches[1]);
            $input = $matches[2];
            break;
        case '(':
            $tokens[] = array('open', null);
            $input = substr($input, 1);
            break;
        case ')':
            $tokens[] = array('close', null);
            $input = substr($input, 1);
            break;
        case ',':
            $tokens[] = array('comma', null);
            $input = substr($input, 1);
            break;
        default:
            list($word, $input) = array_pad(
                preg_split('/(?=[^a-zA-Z])/', $input, 2),
                2,
                null);
            $tokens[] = array('word', $word);
            break;
    }
    $input = trim($input);
}

print_r($tokens);

构建解析器

完成此操作后,下一步是构建解析器:检查词法输入并将其转换为所需格式的组件。解析器很聪明;在转换输入的过程中,它还确保输入符合语法规则。

解析器通常被实现为状态机(也称为有限状态机或有限自动机),并像这样工作:

  • 解析器有一个状态;这通常是一个适当范围内的数字,但每个状态也用更人性化的名称来描述。
  • 有一个循环,一次读取一个 lexed 标记。根据当前状态和令牌的值,解析器可以决定执行以下一项或多项操作:
    1. 采取一些影响其输出的行动
    2. 将其状态更改为其他值
    3. 确定输入格式错误并产生错误

¹ 解析器生成器是输入是形式语法并且输出是词法分析器和解析器的程序,您可以“只是加水”到:只需扩展代码以执行“采取一些行动”,具体取决于令牌的类型;其他一切都已经处理好了。对这个主题的快速搜索给出了导致PHP Lexer 和 Parser Generator?

于 2013-02-04T10:55:57.730 回答
4

毫无疑问,如果您正在构建语法树,您应该编写解析器。但是如果你只需要解析这个示例输入regex仍然可能是一个工具:

<?php
$str = 'all, ("hi there", (these, that) , other), another';

$str = preg_replace('/\, /', ',', $str); //get rid off extra spaces
/*
 * get rid off undefined constants with surrounding them with quotes
*/
$str = preg_replace('/(\w+),/', '\'$1\',', $str);
$str = preg_replace('/(\w+)\)/', '\'$1\')', $str);
$str = preg_replace('/,(\w+)/', ',\'$1\'', $str);

$str = str_replace('(', 'array(', $str);

$str = 'array('.$str.');';

echo '<pre>';
eval('$res = '.$str); //eval is evil.
print_r($res); //print the result

演示

注意:如果输入格式错误,正则表达式肯定会失败。我正在编写此解决方案,以防您需要快速脚本。编写词法分析器和解析器是一项耗时的工作,需要大量研究。

于 2013-02-04T11:08:14.540 回答
3

据我所知,括号问题是乔姆斯基语言类 2,而正则表达式相当于乔姆斯基语言类 3,所以应该没有正则表达式,这就解决了这个问题。

但是不久前我读到了一些东西:

此 PCRE 模式解决了括号问题(假设设置了 PCRE_EXTENDED 选项以便忽略空白):\( ( (?>[^()]+) | (?R) )* \)

带分隔符且不带空格:/\(((?>[^()]+)|(?R))*\)/.

这是来自递归模式 (PCRE) - PHP 手册

该手册上有一个示例,它解决了您指定的几乎相同的问题!您或其他人可能会找到它并继续这个想法。

我认为最好的解决方案是用preg_match_all. 可悲的是,我没有能力做这种疯狂的事!

于 2013-02-04T11:07:14.480 回答
3

首先,我要感谢所有帮助我的人。

不幸的是,我不能接受多个答案,因为如果可以的话,我会给你们所有人,因为所有答案对于这个问题的不同类型都是正确的。

就我而言,我只需要一些简单而肮脏的东西,并且按照@palindrom 和@PLB 的答案,我有以下工作适合我:

$str=transformEnd(transformStart($string));
$str = preg_replace('/([^\\\])\(/', '$1array(', $str);
$str = 'array('.$str.');';
eval('$res = '.$str);
print_r($res); //print the result

function transformStart($str){
    $match=preg_match('/(^\(|[^\\\]\()/', $str, $positions, PREG_OFFSET_CAPTURE);
    if (count($positions[0]))
        $first=($positions[0][1]+1);
    if ($first>1){
        $start=substr($str, 0,$first);
        preg_match_all("/(?:(?:\"(?:\\\\\"|[^\"])+\")|(?:'(?:\\\'|[^'])+')|(?:(?:[^\s^\,^\"^\']+)))/is",$start,$results);
        if (count($results[0])){
            $start=implode(",", $results[0]).",";
        } else {
            $start="";
        }
        $temp=substr($str, $first);
        $str=$start.$temp;
    }
    return $str;
}

function transformEnd($str){
    $match=preg_match('/(^\)|[^\\\]\))/', $str, $positions, PREG_OFFSET_CAPTURE);
    if (($total=count($positions)) && count($positions[$total-1]))
        $last=($positions[$total-1][1]+1);
    if ($last==null)
        $last=-1;
    if ($last<strlen($str)-1){
        $end=substr($str,$last+1);
        preg_match_all("/(?:(?:\"(?:\\\\\"|[^\"])+\")|(?:'(?:\\\'|[^'])+')|(?:(?:[^\s^\,^\"^\']+)))/is",$end,$results);
        if (count($results[0])){
            $end=",".implode(",", $results[0]);
        } else {
            $end="";
        }
        $temp=substr($str, 0,$last+1);
        $str=$temp.$end;
    }
    if ($last==-1){
        $str=substr($str, 1);
    }
    return $str;
}

其他答案对于正在寻找更好方法的人也很有帮助。

再次感谢大家=D。

于 2013-02-04T12:34:31.723 回答
2

我想知道这是否有效:

  1. 替换(Array(
  2. 使用正则表达式在不带逗号的单词或括号后放置逗号

    preg_replace( '/[^,]\s+/', ',', $string )

  3. eval( "\$result = Array( $string )" )

于 2013-02-04T10:32:34.637 回答
2

我将放置用于实现这一点的算法或伪代码。希望你能弄清楚如何在 PHP 中实现它:

function Parser([receives] input:string) returns Array

define Array returnValue;

for each integer i from 0 to length of input string do
    charachter = ith character from input string.

    if character is '('
        returnValue.Add(Parser(substring of input after i)); // recursive call

    else if character is '"'
        returnValue.Add(substring of input from i to the next '"')

    else if character is whitespace
        continue

    else
        returnValue.Add(substring of input from i to the next space or end of input)

   increment i to the index actually consumed


return returnValue
于 2013-02-04T10:52:05.133 回答
1

如果字符串值是固定的,可以这样做

$ar = explode('("', $st);

$ar[1] = explode('",', $ar[1]);

$ar[1][1] = explode(',', $ar[1][1]);

$ar[1][2] = explode(')',$ar[1][1][2]);

unset($ar[1][1][2]);

$ar[2] =$ar[1][2][1];

unset($ar[1][2][1]);
于 2013-02-04T11:10:19.063 回答