我simple_html_dom
用来解析网站。有没有办法提取文档类型?
问问题
1999 次
2 回答
3
您可以使用file_get_contents
函数从网站获取所有 HTML 数据。例如
<?php
$html = file_get_contents("http://google.com");
$html = str_replace("\n","",$html);
$get_doctype = preg_match_all("/(<!DOCTYPE.+\">)<html/i",$html,$matches);
$doctype = $matches[1][0];
?>
于 2009-10-14T13:26:56.550 回答
1
您可以使用$html->find('unknown')
. 这至少在 simplehtmldom 库的 1.11 版中有效。我使用它如下:
function get_doctype($doc)
{
$els = $doc->find('unknown');
foreach ($els as $e => $el)
if ($el->parent()->tag == 'root')
return $el;
return NULL;
}
这只是为了处理可能找到的任何其他“未知”元素;我假设第一个将是文档类型。不过,您可以明确检查->innertext
是否要确保它以 开头'!DOCTYPE '
。
于 2011-12-04T13:21:56.050 回答