2

我正在使用 .NET 4.5,并且正在尝试将 URI 查询字符串解析为NameValueCollection. 正确的方法似乎是使用HttpUtility.ParseQueryString(string query)which 获取从中获得的字符串Uri.Query并返回 a NameValueCollectionUri.Query返回一个根据 RFC 2396 转义的字符串,并且HttpUtility.ParseQueryString(string query)需要一个 URL 编码的字符串。假设 RFC 2396 和 URL 编码是同一件事,这应该可以正常工作。

但是,文档声称ParseQueryString它“使用 UTF8 格式来解析查询字符串”。还有一个重载方法接受 aSystem.Text.Encoding然后使用它而不是 UTF8。

我的问题是:使用 UTF8 作为编码意味着什么?输入是 a string,根据定义(在 C# 中)是 UTF-16。那如何解释为 UTF-8?在这种情况下,使用 UTF8 和 UTF16 作为编码有什么区别?我担心的是,由于我接受任意用户输入,如果我搞砸了编码,可能会存在一些安全风险(即用户可能会通过一些脚本漏洞利用)。

关于这个主题有一个先前的问题(How to parse a query string into a NameValueCollection in .NET),但它没有专门解决编码问题。

4

1 回答 1

7

解析编码值时,它将这些值视为 UTF-8。以字符 ¢ 为例。UTF-8 编码是 C2 A2。因此,如果它在查询字符串中,它将被编码为 %C2%A2。

现在,什么时候ParseQueryString解码,它需要知道使用什么编码。默认值为 UTF-8,这意味着字符将被正确解码。但也许用户使用的是Microsoft 的 Cyrillic代码页 (Windows-1251),其中 C2 和 A2 是两个不同的字符。在这种情况下,将其解释为 UTF-8 将是一个错误。

如果这是一个用户界面应用程序(即用户直接输入数据),那么您可能希望使用为当前 UI 文化定义的任何编码。如果您从 Web 页面获取此信息,那么您将希望使用页面使用的任何编码。如果您正在编写一个 Web 服务,那么您可以告诉用户他们的输入必须是 UTF-8 编码的。

于 2012-04-19T16:09:27.460 回答