4

平台:ASP.NET 4.0 MVC 4 C# jQuery

这就是我想做的。

我正在为我的产品建立一个简单的论坛。我想给用户一个文本区域来输入他们的帖子或评论。

  1. 我想允许基本的文本格式 HTML 和链接 - 比如 p、a、b、i
  2. 不想要任何其他 html 样式 - 即 div、span 等。
  3. 不想要任何脚本访问

有没有聪明的方法来做到这一点?例如,我可以允许不安全的文本并在服务器端对其进行检查,但我怀疑我是否能够正确清理它并且可能会打开安全漏洞。

最好避免使用重型插件。

谢谢!

(PS - 我最糟糕的后备是我只允许安全文本,即保持 ASP.NET 安全,然后对链接使用特殊标记 - 例如 [link] [b] [i])

4

4 回答 4

2

更新(2020 年 2 月): Microsoft 的 AntiXSS 库在其 Sanitizer 类上包含一个名为 GetSafeHtmlFragment 的静态方法,这似乎是做生意的。(由@exploring.cheerily.impresses建议)


在 .NET 4.5+ 中或通过添加System.Web.Security.AntiXss到旧版本的 .NET 中,有一种解决此问题的好方法。我们可以[AllowHtml]和一个自定义注解属性一起使用。该方法应将字符串中的 HTML 标记列入白名单并验证请求。

这是此作业的自定义注释属性:

[AttributeUsage(AttributeTargets.Property | AttributeTargets.Field, Inherited = true, AllowMultiple = false)]
public sealed class RemoveScriptAttribute : ValidationAttribute
{
    public const string DefaultRegexPattern = @"\<((?=(?!\b(a|b|i|p)\b))(?=(?!\/\b(a|b|i|p)\b))).*?\>";

    public string RegexPattern { get; }

    public RemoveScriptAttribute(string regexPattern = null)
    {
        RegexPattern = regexPattern ?? DefaultRegexPattern;
    }

    protected override ValidationResult IsValid(object value, ValidationContext ctx)
    {
        var valueStr = value as string;
        if (valueStr != null)
        {
            var newVal = Regex.Replace(valueStr, RegexPattern, "", RegexOptions.IgnoreCase, new TimeSpan(0, 0, 0, 0, 250));

            if (newVal != valueStr)
            {
                var prop = ctx.ObjectType.GetProperty(ctx.MemberName);
                prop.SetValue(ctx.ObjectInstance, newVal);
            }
        }

        return null;
    }
}

然后你应该使用 [AllowHtml] 和 [RemoveScript] 属性来装饰你想要在其中包含 HTML 的模型属性,如下所示:

public class MyModel
{
    [AllowHtml, RemoveScript]
    public string StringProperty { get; set; }
}

这将只允许 <a>、<b>、<i> 和 <p> html 标记获取它。所有其他标签都将被删除,但它足够聪明,可以保留标签的内部文本。例如,如果您发送:

“这是 <u>John Smith</u> 输入的<b>富文本<b>。”

你最终会得到这个:

“这是由 John Smith 输入的<b>富文本<b>。”

将更多 HTML 标签列入白名单也很容易。例如,如果您想接受 <u></u>、<br /> 和 <hr />,请更改DefaultRegexPattern(全局影响)或将修改后的 regexPattern 传递给 的实例RemoveScriptAttribute,如下所示:

[AllowHtml]
[RemoveScript(regexPattern: @"\<((?=(?!\b(a|b|i|p|u|br|hr)\b))(?=(?!\/\b(a|b|i|p|u)\b))).*?\>")]
public string Body { get; set; }
于 2017-05-23T16:19:25.157 回答
1

无论您使用什么方法,您都需要假设输入该字段的所有内容都是恶意的,即不信任任何数据。

我不会为 JavaScript/jQuery 中的任何客户端验证操心太多。它会很复杂,只需要重做服务器端。

服务器端你想采取白名单的方法,即如果它不在名单上,它是无效的。您将无法使用 XML 处理器,因为用户的文本可能不会生成有效的 XML,相反您可能希望使用正则表达式。

我会定义一组有效的标签(你说过 p、a、b 和 i,但我会厌倦最后两个,因为你几乎永远不会在“狂野”的 html 中得到它们),然后我会定义是否以及哪些属性对这些标签有效。我猜你至少想要a上的href。

您可以删除标签中不匹配的任何文本......我的正则表达式技能不是很好,但这似乎可以找到您想要保留的所有标签,它需要被反转。

\<a\shref\=".[^\"]*\"\>|\</?[abip]\s?\>
于 2012-08-26T20:20:33.420 回答
0

有大量在线编辑器可供您使用。我在 google 中输入了“免费在线文本编辑器”,并请来了一堆编辑器进行审查。

如果您必须在标记中使用 html,那么当您发现不“安全”的标签时,您将需要解析提交的文本以拒绝该文本。

仅供参考,您可能会对此感兴趣 https://meta.stackexchange.com/questions/121981/stackoverflow-official-wmd-editor

于 2012-08-26T21:59:17.377 回答
0

我将 joocer 的答案标记为“答案”,因为它帮助我形成了自己的观点(尽管他说的不是我最终所做的)

我决定了一个简单的规则 - 我将链接 http://.... 链接并禁止任何其他 html(这对我的应用程序来说很好)。这样,我让 ASP.NET 框架进行所有错误检查并禁止任何 HTML 标记。然后,当我在客户端上呈现文本时,我只识别并修改了 http:// 链接,通过标记装饰,而 HTML 安全编码其他所有内容。

于 2012-09-24T21:04:38.673 回答