0

我有一些带有<img>标签的文本,我需要将它们分开。它的格式

<img.../> Text text text <img.../>text text text<img.../> text text text

我有我的正则表达式 qworkingpreg_match_all以便我得到

Array
(
    [0] => Array
        (
            [0] => <img ... />
            [1] => <img ... />
            [2] => <img ... />
            [3] => <img ... />
        )

但如果我能得到,那就太好了

Array
(
    [0] => Array
        (
            [0] => <img ... />
            [1] => text text text 
            [2] => <img ... />
            [3] => text text text 
            [4] => <img ... />
            [5] => text text text 
        )

我已经尝试了一些东西,但我真的对 PCRE 不太了解。preg_split如果可以避免,我不想使用它,因为每个图像标签都不同。

(我知道一般的 HTML 解析器不能用正则表达式编写,但在这种情况下,我认为这会起作用,因为我正在处理的输入数据是我描述的形式。不会有任何嵌套我需要担心的图像标签。)

PS我试过/!<img.+>/,/!(<img.+>)//(!(<img.+>))/来获取不匹配项,但它返回一个空数组。我不知道调试正则表达式以了解我做错了什么的好方法。

4

2 回答 2

1

我不知道您的问题(或实际代码)是什么,但是:

$r = preg_split('#<img[^>]+>#', $source, 0, PREG_SPLIT_DELIM_CAPTURE);

结果是:

Array
(
    [0] => <img.../>
    [1] =>  Text text text 
    [2] => <img.../>
    [3] => text text text
    [4] => <img.../>
    [5] =>  text text text
)

代替适当的正则表达式,您#<img1>|<img2>|<img3>#当然可以继续使用固定字符串(我想)。

于 2012-11-20T23:40:29.770 回答
0

通过执行以下操作,您可以获得您想要的信息,但格式不完全正确:

preg_match_all('~(<img[^>]*>)([^<]+)~', $str, $matches);

//if inside your "text text text" areas you have other html tags, use this:
preg_match_all('~(<img[^>]*>)(.+?)(?=<img|$)~', $str, $matches);

此时,$matches[0]包含整个匹配的字符串。$matches[1]包含第一组括号$matches[2]中的所有匹配项,并包含第二组括号中的所有匹配项。

Array ( 
  [0] => Array ( 
    [0] => <img.../> Text text text 
    [1] => <img.../>text text text 
    [2] => <img.../> text text text 
  )
  [1] => Array ( 
    [0] => <img.../> 
    [1] => <img.../> 
    [2] => <img.../> 
  ) 
  [2] => Array ( 
    [0] =>  Text text text 
    [1] => text text text 
    [2] =>  text text text 
  ) 
) 

现在,如果您真的需要按照您想要的方式对其进行格式化,只需添加以下代码行:

$answer = array();
foreach($matches[0] as $i=>$match){
  $answer[] = $matches[1][$i];
  $answer[] = $matches[2][$i];
};

$answer现在看起来像这样:

Array ( 
  [0] => <img ... />
  [1] =>  Text text text 
  [2] => <img ... />
  [3] => text text text 
  [4] => <img ... />
  [5] =>  text text text 
)
于 2012-11-20T23:47:50.343 回答