我试图在 html 页面中获取 H1 文本我使用了一个正常工作的正则表达式,直到我们开始在某些页面上使用微格式为简单起见,我使用页面的标题(h1 标记作为“正在审查的项目)。
问题是我在停止工作之前使用的正则表达式,所以我写了另一个正则表达式来执行,以防第一个返回空结果。我知道这很尴尬!!!如何将以下内容组合成一个简单的正则表达式?:
//Get the H1 title
function get_tag( $attr, $value, $xml )
{
$attr = preg_quote($attr);
$value = preg_quote($value);
$tag_regex2 = '/<h1>(.*?)<\\/h1>/si';
$tag_regex = '/<h1><span itemprop="itemreviewed">(.*?)<\\/span><\\/h1>/si';
preg_match($tag_regex,
$xml,
$matches);
if ($matches[1] == ""){
preg_match($tag_regex2,
$xml,
$matches);
};
return $matches[1];
}