1
$regex = '#<p.+</p>#s';

我的目标是返回出现在第一个段落标记和最后一个段落标记之间的大字符串。这是包括所有内容,甚至是其他段落。

我上面的正则表达式适用于除段落标签之外的所有内容。我测试了它用'html'替换'p'并返回成功,替换为'script'并返回成功......为什么这对于这些情况会返回true,但对于段落却不是?

我仍在努力,并且相对确信没有导致正则表达式停止的奇怪转义序列......我认为这是因为我可以提取第一个和最后一个“html”标签之间的所有内容。“html”标签之间的文本还包含我未能提取的所有“p”标签。如果存在某种转义或错误,我认为在提取“html”标签时也会引发相同的错误。我试过 preg_quote() 没有成功。

也许我需要将专用于正则表达式处理的内存设置得更高,以便它可以处理整个文档?

更新:在大多数情况下,前导“p”将(在大多数情况下)不是同一段落标签的结尾“/p”标签。

更新:返回的结果将类似于:

<p>this is the first tag</p>this is a bunch of text from the document, could be all manner of tags <p>this is the last paragraph tag</p>

更新:代码示例

$htmlArticle = <<< 'ENDOFHTML'

Insert data from pastebin here
http://pastebin.com/4A3FYGc8

ENDOFHTML;

$pattern = '#<html.+/html>#s'; // Works fine, returns all characters between first <html and last /html
$pattern = '#<script.+/script>#s'; // Works fine, same as above
$pattern = '#<p.+/p>#s'; // Returns nothing, nothing at all. :'(

preg_match($pattern, $htmlArticle, $matches);

var_dump($matches);

?>

解决方案:ini_set('pcre.backtrack_limit', '1000000');

我已经用尽了我的回溯限制。这是 php.ini 文件中的设置,可以使用 ini_set() 在代码中设置。奇怪的是,我用 ini_set() 设置了值以匹配我的 php.ini 文件中的值......所以它应该从一开始就工作。---谢谢,我会尽快发布解决方案。

4

2 回答 2

0

这很好奇。它没有返回错误,并且使用较短的文档似乎返回了匹配项。我不明白为什么会发生这种情况。我已经在大量文档上使用了正则表达式,没有遇到任何问题。

请注意,这会产生匹配:#<p\b.+<\#s

也许尝试使用backtrack limit,因为有很多</p>匹配项。但是,如果限制太低,我希望preg_match返回False,而不是 0!

作为一种解决方法,请尝试以下方法:

function extractBetweenPs($data) {
$startoffset = null;
$endoffset = null;
if (preg_match('/<p\b/', $data, $matches, PREG_OFFSET_CAPTURE)) {
    $startoffset = $matches[0][1];
    $needle = '</p>';
    $endoffset = strrpos($data, $needle);
    if ($endoffset !== FALSE) {
        $endoffset += strlen($needle);
    } else {
        // this will return everything from '<p' to the end of the doc
        // if there is no '</p>'
        // maybe not what you want?
        $endoffset = strlen($data);
    }
    return substr($data, $startoffset, $endoffset-$startoffset);
}
return '';
}

也就是说,这是一个非常奇怪的要求——将结构化文档的任意部分视为一个 blob。也许您可以退后一步,说出您更广泛的目标是什么,我们可以建议另一种方法?

于 2012-08-18T19:43:47.220 回答
-1

正则表达式不是可用于正确解析 HTML 的工具。

您只需要DOMDocument

$dom = new DOMDocument();
$dom->loadHTML($your_html);
$node = $dom->getElementsByTagName('p')->item(0);
$dom2 = new DOMDocument();
$node = $dom2->importNode($node, true);
$dom2->appendChild($node);
echo $dom2->saveHTML();
于 2012-08-18T18:47:46.927 回答