php - 使用 simple_html_dom 提取文档类型

Question

我simple_html_dom用来解析网站。有没有办法提取文档类型？

score 3 · Accepted Answer

您可以使用file_get_contents函数从网站获取所有 HTML 数据。例如

<?php
   $html = file_get_contents("http://google.com");
   $html = str_replace("\n","",$html);
   $get_doctype = preg_match_all("/(<!DOCTYPE.+\">)<html/i",$html,$matches);
   $doctype = $matches[1][0];
?>

score 1 · Accepted Answer

您可以使用$html->find('unknown'). 这至少在 simplehtmldom 库的 1.11 版中有效。我使用它如下：

function get_doctype($doc)
{
    $els = $doc->find('unknown');

    foreach ($els as $e => $el) 
        if ($el->parent()->tag == 'root') 
            return $el;

    return NULL;
}

这只是为了处理可能找到的任何其他“未知”元素；我假设第一个将是文档类型。不过，您可以明确检查->innertext是否要确保它以开头'!DOCTYPE '。

php - 使用 simple_html_dom 提取文档类型

2 回答 2

Related

Reference