javascript - 如何防止用户生成的 HTML 中的 Javascript 注入攻击

Question

我正在保存用户提交的 HTML（在数据库中）。我必须防止 JavaScript 注入攻击。我见过的最有害的是style="expression(...)".

除此之外，相当数量的有效用户内容将包括特殊字符和 XML 结构，因此我希望尽可能避免使用白名单方法。（列出每个允许的 HTML 元素和属性）。

JavaScript 攻击字符串示例：

1.

"Hello, I have a
&lt;script&gt;alert("bad!")&lt;/script&gt;
problem with the &lt;dog&gt;
element..."

"Hi, this &lt;b
style="width:expression(alert('bad!'))"&gt;dog&lt;/b&gt;
is black."

有没有办法阻止这样的 JavaScript，并保持其余部分完好无损？

到目前为止，我唯一的解决方案是使用正则表达式来删除某些模式。它解决了案例 1，但没有解决案例 2。

该环境本质上是 Microsoft 堆栈：

SQL 服务器 2005
C# 3.5 (ASP.NET)
JavaScript 和 jQuery。

我希望阻塞点是 ASP.NET 层——任何人都可以制作一个糟糕的 HTTP 请求。

编辑

谢谢大家的链接。假设我可以定义我的列表（内容将包括许多数学和编程结构，所以白名单会很烦人），我还有一个问题：

什么样的解析器可以让我只删除“坏”部分？坏的部分可能是整个元素，但是那些驻留在属性中的脚本呢？我不能随意删除< a hrefs >。

score 44 · Accepted Answer

你认为是这样吗？看看这个。

无论您采用哪种方法，您都绝对需要使用白名单。这是甚至接近安全的唯一方法，您允许在您的网站上允许的内容。

编辑：

不幸的是，我不熟悉 .NET，但您可以查看 stackoverflow 自己与 XSS 的战斗（https://blog.stackoverflow.com/2008/06/safe-html-and-xss/）和代码编写用于解析此站点上发布的 HTML：Archive.org 链接- 显然您可能需要更改此设置，因为您的白名单更大，但这应该可以帮助您入门。

score 8 · Accepted Answer

在我看来，元素和属性的白名单是唯一可以接受的选择。任何不在您的白名单上的内容都应该被删除或编码（将 <>&" 更改为实体）。另外，请务必检查您允许的属性内的值。

少一点，你就会面临问题——已知的漏洞或将来会发现的漏洞。

score 4 · Accepted Answer

唯一真正安全的方法是使用白名单。对所有内容进行编码，然后将允许的代码转换回来。

我见过相当先进的尝试只禁止危险代码，但它仍然不能很好地工作。尝试安全地捕捉任何人能想到的一切都是一项壮举，而且很容易对一些根本不危险的东西进行烦人的替换。

score 4 · Accepted Answer

目前最好的选择是使用这样的内容安全策略标头：

Content-Security-Policy: default-src 'self';

这将阻止加载内联和外部脚本、样式、图像等，因此浏览器只会加载和执行来自同一来源的资源。

但是，它不适用于旧浏览器。

score 3 · Accepted Answer

基本上，正如 Paolo 所说，您应该尝试关注用户被允许做的事情，而不是试图过滤掉他们不应该做的事情。

保留允许的 HTML 标签列表（例如 b、i、u...）并过滤掉其他所有标签。您可能还想删除允许的 HTML 标记的所有属性（例如，因为您的第二个示例）。

另一个解决方案是引入所谓的 BB 代码，这是很多论坛使用的。它具有与 HTML 相似的语法，但从允许代码的白名单的想法开始，然后将其转换为 HTML。例如， [b]example[/b] 将导致example。确保在使用 BB 代码时仍然事先过滤掉 HTML 标签。

score 0 · Accepted Answer

您使用的是什么服务器端代码？取决于您可以过滤掉恶意脚本的数量或方法，但这是危险的领域。即使是经验丰富的专业人士也会被抓住： http: //www.codinghorror.com/blog/archives/001167.html

score -4 · Accepted Answer

您可以使用此限制功能。

function restrict(elem){
  var tf = _(elem);
  var rx = new RegExp;
  if(elem == "email"){
       rx = /[ '"]/gi;
  }else if(elem == "search" || elem == "comment"){
    rx = /[^a-z 0-9.,?]/gi;
  }else{
      rx =  /[^a-z0-9]/gi;
  }
  tf.value = tf.value.replace(rx , "" );
}

javascript - 如何防止用户生成的 HTML 中的 Javascript 注入攻击

编辑

7 回答 7

Related

Reference