考虑以下格式的文档:
<!DOCTYPE html>
<html>
<head>
<title></title>
<body>
<div class="blog_post_item first">
<?php // some child elements ?>
</div><!-- end blog_post_item -->
</body>
</html>
我正在使用 PHP cURL 将这样的文档从一个域加载到另一个域。我想将我的 cURL 结果修剪为仅包含div.blog_post_item.first
及其子项。我知道另一个页面的结构,但我无法编辑它。我想我可以用它preg_match
来找到开始和结束标签;它们看起来总是一样的,包括结尾的评论。
我已经搜索了使用 cURL/XPath/XSLT/whatever 进行屏幕抓取的示例/教程,它主要是对 HTML 解析库名称的周期性喋喋不休。因此,请提供一个简单的工作示例。请不要简单地解释使用正则表达式解析 HTML 是一个潜在的安全漏洞。请 不要 只列出我应该进一步阅读的库和规范。_ _
我有一些简单的 PHP cURL 代码:
$ch = curl_init("http://a.web.page.com");
curl_setopt($ch, CURLOPT_HEADER, 0);
$output = curl_exec($ch);
curl_close($ch);
当然,现在$output
包含了整个源码。我将如何获得该元素的内容?