1

simple_html_dom用来解析网站。有没有办法提取文档类型?

4

2 回答 2

3

您可以使用file_get_contents函数从网站获取所有 HTML 数据。例如

<?php
   $html = file_get_contents("http://google.com");
   $html = str_replace("\n","",$html);
   $get_doctype = preg_match_all("/(<!DOCTYPE.+\">)<html/i",$html,$matches);
   $doctype = $matches[1][0];
?>
于 2009-10-14T13:26:56.550 回答
1

您可以使用$html->find('unknown'). 这至少在 simplehtmldom 库的 1.11 版中有效。我使用它如下:

function get_doctype($doc)
{
    $els = $doc->find('unknown');

    foreach ($els as $e => $el) 
        if ($el->parent()->tag == 'root') 
            return $el;

    return NULL;
}

这只是为了处理可能找到的任何其他“未知”元素;我假设第一个将是文档类型。不过,您可以明确检查->innertext是否要确保它以 开头'!DOCTYPE '

于 2011-12-04T13:21:56.050 回答