我知道为此目的使用 DOM 更好,但让我们尝试以这种方式提取文本:
<?php
$html=<<<EOD
<html>
<head>
</head>
<body>
<p>Some text</p>
</body>
</html>
EOD;
preg_match('/<body.*?>/', $html, $matches, PREG_OFFSET_CAPTURE);
if (empty($matches))
exit;
$matched_body_start_tag = $matches[0][0];
$index_of_body_start_tag = $matches[0][1];
$index_of_body_end_tag = strpos($html, '</body>');
$body = substr(
$html,
$index_of_body_start_tag + strlen($matched_body_start_tag),
$index_of_body_end_tag - $index_of_body_start_tag + strlen($matched_body_start_tag)
);
echo $body;
结果可以在这里看到:http: //ideone.com/vH2FZ
如您所见,我收到的文本比预期的要多。
有些东西我不明白,为了获得正确的substr($string, $start, $length)
函数长度,我正在使用:
$index_of_body_end_tag - $index_of_body_start_tag + strlen($matched_body_start_tag)
我看不出这个公式有什么问题。
有人可以建议问题出在哪里吗?
非常感谢大家。
编辑:
非常非常感谢大家。我脑子里只有一个错误。阅读您的答案后,我现在了解问题所在,应该是:
$index_of_body_end_tag - ($index_of_body_start_tag + strlen($matched_body_start_tag));
或者:
$index_of_body_end_tag - $index_of_body_start_tag - strlen($matched_body_start_tag);