3

背景

我有一个数组,我通过根据每次出现的0d0ausing拆分字符串来创建该数组preg_split('/(?<=0d0a)(?!$)/')

例如:

$string = "78781110d0a78782220d0a";

将分为:

Array ( [0] => 78781110d0a [1] => 78782220d0a )  

有效的数组元素必须以 开头7878和结尾0d0a

问题

但有时,0d0a字符串中有一个额外的元素,它拆分为一个额外的无效数组元素,即不以 . 开头的元素7878

以这个字符串为例:

$string = "78781110d0a2220d0a78783330d0a";

这分为:

Array ( [0] => 78781110d0a [1] => 2220d0a [2] => 78783330d0a )

但实际上应该是:

Array ( [0] => 78781110d0a2220d0a [1] => 78783330d0a)

我的解决方案

我编写了以下(混乱的)代码来解决这个问题:

    $data = Array('78781110d0a','2220d0a','78783330d0a');
    $i = 0; //count for $data array;
    $j = 0; //count for $dataFixed array;
    $dataFixed = $data;

    foreach($data as $packet) {
        if (substr($packet,0,4) != "7878") { //if packet doesn't start with 7878, do some fixing
            if ($i != 0) { //its the first packet, can't help it!
                $j++;                    

                if ((substr(strtolower($packet), -4, 4) == "0d0a")) { //if the packet doesn't end with 0d0a, its 'mostly' not valid, so discard it
                    $dataFixed[$i-$j] = $dataFixed[$i-$j] . $packet;
                }
                    unset($dataFixed[$i-$j+1]);                        
                    $dataFixed = array_values($dataFixed);
            }
        }
        $i++;
    }

描述

我首先将数组复制到另一个数组$dataFixed。在数组的foreach循环中$data,我检查它是否以7878. 如果没有,我将它与$data. 然后我取消设置当前数组$dataFixed并使用 重置数组元素array_values

但我对这个解决方案不是很有信心。有没​​有更好、更有效的方法?

更新

如果输入字符串没有0d0a像它应该的那样结束怎么办?它将坚持前一个数组元素..

例如:在字符串78781110d0a2220d0a78783330d0a0000中,0000应作为另一个数组元素分隔。

4

3 回答 3

3

使用另一个积极的前瞻 (?=7878)来形成:

preg_split('/(?<=0d0a)(?=7878)/',$string)

注意:我删除(?!$)是因为我不确定那是什么,根据您的示例数据。

例如,这段代码:

$string = "78781110d0a2220d0a78783330d0a";
$array  = preg_split('/(?<=0d0a)(?=7878)(?!$)/',$string);
print_r($array);

结果是:

Array ( [0] => 78781110d0a2220d0a [1] => 78783330d0a )

更新:

根据您修改后的输入字符串末尾可能有随机字符的问题,您可以添加三行来制作完整的程序:

$string = "78781110d0a2220d0a787830d0a330d0a0000";
$array  = preg_split('/(?<=0d0a)(?=7878)/',$string);
$temp = preg_split('/(7878.*0d0a)/',$array[count($array)-1],null,PREG_SPLIT_NO_EMPTY|PREG_SPLIT_DELIM_CAPTURE);
$array[count($array)-1] = $temp[0];
if(count($temp)>1) { $array[] = $temp[1]; }
print_r($array);

我们基本上进行初始拆分,然后按预期的数据格式拆分结果数组的最后一个元素,保持分隔符使用PREG_SPLIT_DELIM_CAPTURE. 如果输入字符串不以随机字符结尾,PREG_SPLIT_NO_EMPTY则确保我们不会得到空数组元素。

更新 2:

根据您在下面的评论,您似乎暗示任何所需匹配之间可能存在随机字符,并且您希望保留这些随机字符,您可以这样做:

$string = "0078781110d0a2220d0a2220d0a0000787830d0a330d0a000078781110d0a2220d0a0000787830d0a330d0a0000";
$split1 = preg_split('/(7878.*?0d0a)/',$string,null,PREG_SPLIT_NO_EMPTY|PREG_SPLIT_DELIM_CAPTURE);
$result = array();
foreach($split1 as $e){
  $split2 = preg_split('/(.*0d0a)/',$e,null,PREG_SPLIT_NO_EMPTY|PREG_SPLIT_DELIM_CAPTURE);
  foreach($split2 as $el){
    // test if $el doesn't start with 7878 and ends with 0d0a
    if(strpos($el,'7878') !== 0 && substr($el,-4) == '0d0a'){
    //if(preg_match('/^(?!7878).*0d0a$/',$el) === 1){
      $result[ count($result)-1 ] = $result[ count($result)-1 ] . $el;
    } else {
      $result[] = $el;
    }
  }
}
print_r($result);

这里采用的策略与上面不同。首先,我们使用非贪婪正则表达式根据与所需数据匹配的分隔符拆分输入字符串.*?。此时,我们有一些字符串包含所需值的结尾和结尾的一些垃圾,因此我们使用贪婪的正则表达式根据最后一次出现的 "0d0a" 再次拆分.*0d0a。然后,我们将任何不以“7878”开头但以“0d0a”结尾的结果值附加到前一个值,因为这应该修复被拆分的前半部分和后半部分,因为它包含一个额外的“0d0a”。

我为最里面的语句提供了两种方法if,一种使用正则表达式。正则表达式在我的测试中稍微慢一些,所以我把那个注释掉了。

我可能仍然没有您的全部要求,因此您必须让我知道它是否有效,并且可能提供您的完整数据集。

于 2013-04-12T05:39:57.847 回答
1

你为什么不改用preg_match_all呢?您可以避免所有非捕获组(向前看,向后看)以拆分字符串(没有非捕获组会删除匹配项),然后找到您正在寻找的匹配项:

更新

<?php
$string = "00787817878110d0a22278780d0a78783330d0a00";
preg_match_all('/7878.*?0d0a(?=7878|[^(7878)]*?$)/', $string, $arr);
print_r($arr);
?>

给出一个数组$arr[0] => ( [0] => 787817878110d0a22278780d0a, [1] => 78783330d0a )。去除前导和尾随的垃圾字符(任何不以 or 开头或7878结尾的字符) 。78780d0a

所以 $arr[0] 将是您正在寻找的值数组。

ideone上的例子

适用于多个7878值和多个0d0a值(即使这很荒谬)。

更新

如果拆分更符合您的风格,为什么不完全避免使用正则表达式呢?

<?php
$string = "787817878110d0a22278780d0a78783330d0a";
$arr = explode('0d0a7878', $string);
$string = implode('0d0a,7878', $arr);
$arr = explode(',', $string);
print_r($arr);
?>

在这里,我们用分隔符分割字符串0d0a7878,这就是@CharlieGorichanaz 的解决方案正在做的事情,并为他提供快速、准确的解决方案。然后我们添加一个逗号,因为谁不喜欢逗号分隔值?我们再次在逗号上展开所需值的数组。在性能方面,这应该比使用正则表达式更快。见例子

于 2013-04-12T05:46:54.430 回答
1

我认为您正在使用分隔符“0d0a”,它也恰好是内容的一部分!只要分隔符也可以是内容的一部分,就不可能避免获取垃圾数据。不知何故,分隔符必须是唯一的。

可能的解决方案。

  • 将分隔符更改为不作为数据一部分出现的其他内容(000000,@!.;)
  • 如果您确定简单排列项目可能具有的文本长度,请使用它。根据示例,这是不可能的。

答案中给出的解决方案仅考虑您共享的样本数据。如果您对字符串的内容很了解,那么其他人提供的这些解决方案非常好用。否则这些解决方案将无法向您保证!

最佳解决方案:修复右分隔符,然后使用正则表达式或展开任何你喜欢的。

于 2013-04-12T05:50:06.937 回答