我正在使用 PHP 的 DOMDocument 来解析和规范化用户提交的 HTML,使用该loadHTML
方法解析内容,然后通过以下方式获得格式正确的结果saveHTML
:
$dom= new DOMDocument();
$dom->loadHTML('<div><p>Hello World');
$well_formed= $dom->saveHTML();
echo($well_formed);
这很好地解析了片段并添加了适当的结束标签。问题是我还得到了一堆我不想要的标签,例如<!DOCTYPE>
,和. 我知道每个格式良好的 HTML 文档都需要这些标签,但是我正在规范化的 HTML 片段将被插入到现有的有效文档中。<html>
<head>
<body>