html - 实践中 HTML 文档的最大深度是多少？

Question

我希望允许嵌入 HTML，但由于深度嵌套的 HTML 文档会导致某些浏览器崩溃，因此要避免 DoS。我希望能够容纳 99.9% 的文档，但拒绝那些嵌套太深的文档。

两个密切相关的问题：

浏览器内置了哪些文档深度限制？例如，浏览器 X 无法解析或无法构建深度 > 某些限制的文档。
网络上是否提供文档的文档深度统计信息？是否有一个提供网络统计数据的网站解释说网络上某些百分比的真实文档的文档深度小于某个值。

文档深度定义为 1 + 从文档中的任何节点到达文档根所需的最大父遍历次数。例如，在

<html>                   <!-- 1 -->
  <body>                 <!-- 2 -->
    <div>                <!-- 3 -->
      <table>            <!-- 4 -->
        <tbody>          <!-- 5 -->
          <tr>           <!-- 6 -->
            <td>         <!-- 7 -->
              Foo        <!-- 8 -->

最大深度为 8，因为文本节点“Foo”有 8 个祖先。这里的祖先是非严格解释的，即每个节点都是它自己的祖先和它自己的后代。

Opera有一些表格嵌套统计数据，这表明 99.99% 的文档的表格嵌套深度小于 22，但该数据不包含整个文档深度。

编辑：

如果人们想批评 HTML 清理库而不是回答这个问题，请这样做。 http://code.google.com/p/owasp-java-html-sanitizer/wiki/AttackReviewGroundRules解释了如何查找代码、在哪里可以找到可让您尝试攻击的测试平台以及如何报告问题。

编辑：

我问过 Adam Barth，他非常友好地向我指出了处理这个问题的 webkit 代码。

至少，Webkit 强制执行此限制。创建树构建器时，它会收到一个可配置的树限制：

m_treeBuilder(HTMLTreeBuilder::create(this, document, reportErrors, usePreHTML5ParserQuirks(document), maximumDOMTreeDepth**(document)))

并通过block-nesting-cap测试进行测试。

score 20 · Accepted Answer

可能值得询问 coderesearch@google.com。他们从 2005 年开始的研究 ( http://code.google.com/webstats/ ) 并未涵盖您的特定问题。不过，他们对超过 10 亿份文件进行了抽样，并且有兴趣了解您认为值得检查的任何内容。

- [更新] -

这是我编写的用于测试我拥有的浏览器的粗略脚本（将要嵌套的元素数量放入查询字符串中）：

var n = Number(window.location.search.substring(1));

var outboundHtml = '';
var inboundHtml = '';

for(var i = 0; i < n; i++)
{
    outboundHtml += '<div>' + (i + 1);
    inboundHtml += '</div>';
}

var testWindow = window.open();
testWindow.document.open();
testWindow.document.write(outboundHtml + inboundHtml);
testWindow.document.close();

以下是我的发现（可能特定于我的机器，Win XP，3Gb Ram）：

Chrome 9：3218 个嵌套元素将呈现，3129 个崩溃选项卡。（我知道 Chrome 9 很旧，更新程序在我的公司 LAN 上失败）
Safari 5：3477 将呈现，3478 浏览器完全关闭。
IE8：1000000+ 将呈现（内存允许），尽管由于滚动/移动鼠标/等时的事件冒泡，性能会在高 4 位数时显着下降。任何超过 10000 的东西似乎都会被锁定，但我认为只需要很长时间，有效的 DoS 也是如此。
Opera 11：据我所知，仅受内存限制，即我的脚本内存不足 10000000。对于渲染的大型文档，似乎没有像 IE 那样的性能下降。
Firefox 3.6：~1500000 将呈现，但超过此范围的测试会导致浏览器在 Mozilla Crash Reporter 上崩溃或只是挂起，有时一个有效的数字会在随后的时间失败，但更大的数字 ~1700000 会直接从重新启动导致 Firefox 崩溃。

有关 Chrome 的更多信息：

将 DIV 更改为 SPAN 导致 Chrome 能够在崩溃之前嵌套 9202 个元素。因此，原因并不是 HTML 的大小（尽管 SPAN 元素可能更轻量级）。

嵌套 2077 个表格单元格 ( <table><tr><td>) 有效（6231 个元素），直到您向下滚动到单元格 445，然后它崩溃了，所以您不能嵌套 445 个表格单元格（1335 个元素）。

使用从脚本生成的文件进行测试（而不是写入新窗口）给出了稍高的容差，但 Chrome 仍然崩溃。

<ul><li>您可以在崩溃之前嵌套 1409 个列表项 ( )，这很有趣，因为：

Firefox 在 99 之后停止缩进列表项，这可能是一个编程约束。
Opera 在 250、376、502、628、754、880 处不断缩进

设置 DOCTYPE 在 IE8 中有效（将其置于标准模式，即var outboundHtml = '<!DOCTYPE html>';）：它不会嵌套 792 个列表项（选项卡崩溃/关闭）或 1593 个 DIV。无论测试是从脚本生成还是从文件加载，在 IE8 中都没有区别。

因此，浏览器的嵌套限制显然取决于攻击者注入的 HTML 元素的类型以及布局引擎。可能有一些比这小得多的 HTML。我们为 IE8、Chrome 和 Safari 用户提供了一个纯 HTML 的 DoS，其有效负载非常小。

如果您要允许用户发布在您的一个页面上呈现的 HTML，那么如果存在较大的大小限制，则值得考虑对嵌套元素进行限制。

score 4 · Accepted Answer

对于 webkit，最大文档深度是可配置的，但默认为 512

http://trac.webkit.org/browser/trunk/Source/WebCore/page/Settings.h#L408

static const unsigned defaultMaximumHTMLParserDOMTreeDepth = 512;

html - 实践中 HTML 文档的最大深度是多少？

2 回答 2

Related

Reference