php - 在 php 中，如何使用正则表达式来捕获两个模式之间的所有内容（以及每个模式的最短实例）？

Question

我一定是过于复杂了，但我无法为我的生活弄明白。

我有一个存储为字符串的标准 html 文档，我需要获取段落的内容。我会做一个例子。

$stringHTML=
"<html>

<head>
<title>Title</title>
</head>

<body>

<p>This is the first paragraph</p>
<p>This is the second</p>
<p>This is the third</p>
<p>And fourth</p>

</body>
</html>";

如果我使用

$regex='~(<p>)(.*)(</p>)~i';
preg_match_all($regex, $stringHTML, $newVariable);

我不会得到 4 个结果。相反，我会得到 10。我得到 10，因为正则表达式匹配第一个和第一个以及第一个和第四个

如何在两个单词之间进行搜索，只返回每个段落之间的结果？

score 1 · Accepted Answer

使用 DOM 或 XPATH 之类的 HTML 解析器来解析 HTML。不要使用正则表达式来解析 HTML。这是 DOMDocument 如何轻松解析它的方法。

$doc = new \DOMDocument;
$doc->loadHTML($stringHTML);
$ps = $doc->getElementsByTagName("p");
for($i=0;$i<$ps->length; $i++){
    echo $ps->item($i)->textContent. "\n";
}

代码在行动

使用这个正则表达式（正如你所说的正则表达式练习）你会得到 4 个结果。

preg_match_all("#<p>(.*)</p>#", $stringHTML, $matches);
print_r($matches[1]);

这里使用了环视语法。请参阅实际代码。

score 0 · Accepted Answer

0

用于.*?获取最短匹配而不是最长匹配。

于 2013-01-01T04:51:09.947 回答

score 0 · Accepted Answer

你的正则表达式应该是/(.*?)<\/p>/i. 它只会匹配之间的字符串并将其放入数组中。

你不应该做一个小组：()

php - 在 php 中，如何使用正则表达式来捕获两个模式之间的所有内容（以及每个模式的最短实例）？

3 回答 3

Related

Reference