javascript - 基于 JavaScript 的 X/HTML 和 CSS 清理

Question

在每个人都告诉我不应该进行客户端清理之前（我确实打算在客户端上进行，尽管它也可以在 SSJS 中工作），让我澄清一下我正在尝试做什么。

我想要一些类似于Google Caja或HTMLPurifier但用于 JavaScript 的东西：一种处理 HTML 和 CSS 的基于白名单的安全方法（当然还没有插入到 DOM 中，这不安全，但首先以字符串形式获得）然后有选择地过滤掉不安全的标签或属性，忽略它们或选择性地将它们作为转义文本包括在内，或者以其他方式允许将它们报告给应用程序以进行进一步处理，理想情况下是在上下文中。如果它也可以将任何 JavaScript 减少到一个安全的子集，就像在 Google Caja 中一样，那将是很酷的，但我知道这会要求很多。

我的用例是访问通过JSONP获得的不受信任的 XML/XHTML 数据（在 wiki 处理之前来自 Mediawiki wiki 的数据，从而允许原始但不受信任的 XML/HTML 输入）并允许用户对该数据进行查询和转换（XQuery、jQuery、 XSLT 等），利用 HTML5 允许离线使用、IndexedDB 存储等，然后可以在用户查看输入源并构建或导入查询的同一页面上预览结果。

用户可以产生他们想要的任何输出，所以我不会清理他们正在做的事情——如果他们想将 JavaScript 注入页面，他们将全力以赴。但我确实想保护那些希望有信心添加代码的用户，这些代码可以安全地从不受信任的输入中复制目标元素，同时禁止他们复制不安全的输入。

这绝对应该是可行的，但我想知道是否有任何图书馆已经这样做了。

如果我坚持自己实现这一点（尽管我对这两种情况都很好奇），我想证明innerHTML在插入文档之前使用或 DOM 创建/附加是否在各个方面都是安全的。例如，如果我第一次运行DOMParser或依赖浏览器 HTML 解析通过使用innerHTML将原始 HTML 附加到未插入的 div，是否会意外触发事件？我相信它应该是安全的，但不确定 DOM 操作事件是否会在插入之前以某种方式发生，这可能会被利用。

当然，在那之后构建的 DOM 需要进行清理，但我只是想验证我是否可以安全地构建 DOM 对象本身以便于遍历，然后担心过滤掉不需要的元素、属性和属性值。

谢谢！

score 2 · Accepted Answer

ESAPI 的目的是提供一个简单的接口，以清晰、一致且易于使用的方式提供开发人员可能需要的所有安全功能。ESAPI 架构非常简单，只是封装了大多数应用程序所需的关键安全操作的类的集合。

OWASP ESAPI 的 JavaScript 版本：http ://code.google.com/p/owasp-esapi-js

输入验证非常难以有效地进行，HTML 很容易成为有史以来最糟糕的代码和数据混搭，因为有很多可能的地方可以放置代码和很多不同的有效编码。HTML 尤其困难，因为它不仅是分层的，而且还包含许多不同的解析器（XML、HTML、JavaScript、VBScript、CSS、URL 等）。虽然输入验证很重要并且应该始终执行，但它并不是注入攻击的完整解决方案。最好使用逃避作为你的主要防御。我以前没有使用过 HTML Purifier，但它看起来不错，而且他们确实投入了很多时间和思考。为什么不先使用他们的解决方案服务器端，然后再应用您想要的任何其他规则。一世'[ ] ( )写代码。XSS (Cross Site Scripting) Cheat Sheet和The Open Web Application Security Project (OWASP)这里还有 100 多个示例。基于 DOM 的 XSS 预防备忘单需要注意的一些事项。

HTML Purifier 捕捉到了这种混合编码技巧

<A HREF="h
tt  p://6&#9;6.000146.0x7.147/">XSS</A>

这个带有未编码 XSS 漏洞利用的 DIV 背景图像

<DIV STYLE="background-image:\0075\0072\006C\0028'\006a\0061\0076\0061\0073\0063\0072\0069\0070\0074\003a\0061\006c\0065\0072\0074\0028.1027\0058.1053\0053\0027\0029'\0029">

一些你遇到的问题：HTML 和 JavaScript 中字符“<”的所有 70 种可能组合

<
%3C
&lt
&lt;
&LT
&LT;
&#60
&#060
&#0060
&#00060
&#000060
&#0000060
&#60;
&#060;
&#0060;
&#00060;
&#000060;
&#0000060;
&#x3c
&#x03c
&#x003c
&#x0003c
&#x00003c
&#x000003c
&#x3c;
&#x03c;
&#x003c;
&#x0003c;
&#x00003c;
&#x000003c;
&#X3c
&#X03c
&#X003c
&#X0003c
&#X00003c
&#X000003c
&#X3c;
&#X03c;
&#X003c;
&#X0003c;
&#X00003c;
&#X000003c;
&#x3C
&#x03C
&#x003C
&#x0003C
&#x00003C
&#x000003C
&#x3C;
&#x03C;
&#x003C;
&#x0003C;
&#x00003C;
&#x000003C;
&#X3C
&#X03C
&#X003C
&#X0003C
&#X00003C
&#X000003C
&#X3C;
&#X03C;
&#X003C;
&#X0003C;
&#X00003C;
&#X000003C;
\x3c
\x3C
\u003c
\u003C

javascript - 基于 JavaScript 的 X/HTML 和 CSS 清理

1 回答 1

Related

Reference