c# - 解码引用可打印正确

Question

我有以下字符串：

=?utf-8?Q?=5Bproconact_=2D_Verbesserung_=23=32=37=39=5D_=28Neu=29_Stellvertretungen_Benutzerrecht_=2D_andere_k=C3=B6nnen_f=C3=BCr_andere_Stellvertretungen_erstellen_=C3=A4ndern_usw=2E_dadurch_ist_der_Schutz_der_Aktivi=C3=A4ten_Mails_nicht_gew=C3=A4hrt=...

这是一个编码

[proconact-Verbesserung #279] (Neu) Stellvertretungen Benutzerrecht - andere können für andere Stellvertretungen erstellen ändern usw. dadurch ist der Schutz der Aktiviäten Mails nicht gewährt.

我正在寻找一种方法来解码引用的字符串。

我试过了：

private static string DecodeQuotedPrintables(string input, string charSet) {
    Encoding enc = new ASCIIEncoding();
    try {
        enc = Encoding.GetEncoding(charSet);
    } catch {
        enc = new UTF8Encoding();
    }

    var occurences = new Regex(@"(=[0-9A-Z]{2}){1,}", RegexOptions.Multiline);
    var matches = occurences.Matches(input);

    foreach (Match match in matches) {
        try {
            byte[] b = new byte[match.Groups[0].Value.Length / 3];
            for (int i = 0; i < match.Groups[0].Value.Length / 3; i++) {
                b[i] = byte.Parse(match.Groups[0].Value.Substring(i * 3 + 1, 2), System.Globalization.NumberStyles.AllowHexSpecifier);
            }
            char[] hexChar = enc.GetChars(b);
            input = input.Replace(match.Groups[0].Value, hexChar[0].ToString());
        } catch { ;}
    }
    input = input.Replace("?=", "").Replace("=\r\n", "");

    return input;
}

当我打电话时（其中 s 是我的字符串）

var x = DecodeQuotedPrintables(s, "utf-8");

这将返回

=?utf-8?Q?[proconact_-_Verbesserung_#_(Neu)_Stellvertretungen_Benutzerrecht_-_andere_können_für_andere_Stellvertretungen_erstellen_ändern_usw._dadurch_ist_der_Schutz_der_Aktiviäten_Mails_nicht_gewährt=...

我该怎么办，也会删除_ 以及开头=?utf-8?Q?和结尾？=..

score 5 · Accepted Answer

您尝试解码的文本通常位于 MIME 标头中，并根据以下 Internet 标准中定义的规范进行编码：RFC 2047：MIME（多用途 Internet 邮件扩展）第三部分：非 ASCII 文本的消息标头扩展.

GitHub 上有这样一个解码器的示例实现；也许你可以从中汲取一些想法：RFC2047 decoder in C#。

您还可以使用此在线工具来比较您的结果：在线 MIME 标头解码器。

请注意，您的示例文本不正确。该规范声明：

encoded-word = "=?" charset "?" encoding "?" encoded-text "?="

根据规范，任何编码的单词都必须以?=. 因此，您的样本必须从以下方面进行校正：

=?utf-8?Q?=5Bproconact_=2D_Verbesserung_=23=32=37=39=5D_=28Neu=29_Stellvertretungen_Benutzerrecht_=2D_andere_k=C3=B6nnen_f=C3=BCr_andere_Stellvertretungen_erstellen_=C3=A4ndern_usw=2E_dadurch_ist_der_Schutz_der_Aktivi=C3=A4ten_Mails_nicht_gew=C3=A4hrt=

…到（滚动到最右边）：

=?utf-8?Q?=5Bproconact_=2D_Verbesserung_=23=32=37=39=5D_=28Neu=29_Stellvertretungen_Benutzerrecht_=2D_andere_k=C3=B6nnen_f=C3=BCr_andere_Stellvertretungen_erstellen_=C3=A4ndern_usw=2E_dadurch_ist_der_Schutz_der_Aktivi=C3=A4ten_Mails_nicht_gew=C3=A4hrt?=

严格来说，您的样本也是无效的，因为它超过了对任何编码词施加的 75 个字符的限制；然而，大多数解码器倾向于容忍这种不一致。

score 3 · Accepted Answer

我已经测试了 5+ 的代码片段，这是有效的：我修改了正则表达式部分：

测试线：

    im sistemlerimizde bak=FDm =E7al=FD=FEmas=FD yap=FDlaca=F0=FDndan; www.gib.=

示例调用：

    string encoding = "windows-1254";
    string input = "im sistemlerimizde bak=FDm =E7al=FD=FEmas=FD yap=FDlaca=F0=FDndan; www.gib.=";
    DecodeQuotedPrintables(input, encoding);

代码片段：

    private static string DecodeQuotedPrintables(string input, string charSet)
    {


        System.Text.Encoding enc = System.Text.Encoding.UTF7;

        try
        {
            enc = Encoding.GetEncoding(charSet);
        }
        catch
        {
            enc = new UTF8Encoding();
        }



        ////parse looking for =XX where XX is hexadecimal
        //var occurences = new Regex(@"(=[0-9A-Z]{2}){1,}", RegexOptions.Multiline);
        var occurences = new Regex("(\\=([0-9A-F][0-9A-F]))", RegexOptions.Multiline);
        var matches = occurences.Matches(input);

        foreach (Match match in matches)
        {
            try
            {
                byte[] b = new byte[match.Groups[0].Value.Length / 3];
                for (int i = 0; i < match.Groups[0].Value.Length / 3; i++)
                {
                    b[i] = byte.Parse(match.Groups[0].Value.Substring(i * 3 + 1, 2), System.Globalization.NumberStyles.AllowHexSpecifier);
                }
                char[] hexChar = enc.GetChars(b);
                input = input.Replace(match.Groups[0].Value, hexChar[0].ToString());
            }
            catch
            { ;}
        }
        input = input.Replace("?=", "").Replace("=\r\n", "");

        return input;
    }

score 3 · Accepted Answer

正如在标准类中提到的，.NET就是为此目的而存在的。

string unicodeString =
            "=?UTF-8?Q?YourText?=";
        System.Net.Mail.Attachment attachment = System.Net.Mail.Attachment.CreateAttachmentFromString("", unicodeString);
        Console.WriteLine(attachment.Name);

score 1 · Accepted Answer

按照我的评论，我建议

private static string MessedUpUrlDecode(string input, string encoding)
{
    Encoding enc = new ASCIIEncoding();

    try
    {
        enc = Encoding.GetEncoding(charSet);
    }
    catch
    {
        enc = new UTF8Encoding();
    }

    string messedup = input.Split('?')[3];
    string cleaned = input.Replace("_", " ").Replace("=...", ".").Replace("=", "%");

    return System.Web.HttpUtility.UrlDecode(cleaned, enc);
}

假设源字符串的破坏是一致的。

score -1 · Accepted Answer

我不太确定如何删除

=?utf-8?Q?

除非它一直出现，否则你可以这样做：

input = input.Split('?')[3];

要摆脱尾随的“=”，您可以通过以下方式将其删除：

input = input.Remove(input.Length - 1);

您可以通过用空格替换“_”来摆脱它：

input = input.Replace("_", " ");

您可以在 DecodeQuotedPrintables 函数中使用这些代码。

希望这可以帮助！

c# - 解码引用可打印正确

5 回答 5

Related

Reference