4

我有一串数字,我想缩短它以在 URL 中使用。该字符串始终仅由数字组成。例如:9587661771112

理论上,将数字字符串加密为字母数字(0-9a-zA-Z)字符串应该总是返回更短的结果,这就是我想要的。

我创建了一个执行以下操作的算法:

加密(string1 = 数字输入字符串,string2 = 字母数字返回字符串)

  • 从 string1 中取出接下来的两个字符并将它们转换为一个数字,例如上面例子中的 95
  • 检查数字是否小于 52(az 和 AZ 的组合长度)
    • 如果是这样,将 ("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ")[Number] 添加到 string2 并向前跳转 2 个字符
    • 否则,将 ("0123456789)[First digit of Number) 添加到 string2 并向前跳转 1 个字符

在下一步中,数字将是 58,依此类推。

通过一些调整,我能得到的最短结果是:9587661771112 > j9UQpjva

我的问题是,使用这种技术,结果可能会有很大差异。我也觉得这不是我问题的干净解决方案。

所以我需要一个加密算法,将一串数字转换成更短的大写字母、小写字母和数字串。它必须是可解密的并且具有或多或少一致的结果。

知道如何实现这一目标吗?


解决方案:

string Chars = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";

string Base10To62(long N)
{
    string R = "";
    while (N != 0)
    {
        R += Chars[(int)(N % 62)];
        N /= 62;
    }
    return R;
}

long Base62To10(string N)
{
    long R = 0;
    int L = N.Length;
    for (int i = 0; i < L; i++)
    {
        R += Chars.IndexOf(N[i]) * (long)Math.Pow(62, i);
    }
    return R;
}

奇迹般有效 :)

4

3 回答 3

2

解决方案:

string Chars = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";

    private static string Base10To62(string S) 
    {
        string R = "";
        var N = long.Parse(S);
        do { R += Chars[(int)(N % 0x3E)]; } while ((N /= 0x3E) != 0);
        return R;
    }

    private static string Base62To10(string S) 
    {
        long R = 0;
        int L = S.Length;
        for (int i = 0; i < L; i++) R += Chars.IndexOf(S[i]) * (long)(System.Math.Pow(0x3E, i));
        return R.ToString();
    }
于 2012-08-02T09:36:49.163 回答
1

62 到 10 的 Linq 版本,只是为了好玩:

long Base62To10(string N)
{
    return N.Select((t, i) => Chars.IndexOf(t)*(long) Math.Pow(62, i)).Sum();
}
于 2012-08-01T10:29:48.847 回答
1

如果您可以在您的集合中再添加两个字符以使其达到 64 位,那么我可以在这里描述一个简单、快速的算法。

将数字编码为三位或四位代码,如下所示:

0: 000
1: 001
2: 010
3: 011
4: 100
5: 101
6: 1100
7: 1101
8: 1110
9: 1111

这是一个前缀代码,这意味着您可以查看前三位来判断是否需要使用第四位。如果整数的前三位大于 5,则获取另一位。所以解码将是:

get three bits as n
if n < 6
     the result is n + '0'
else
     n = (n << 1) + one more bit
     the result is n - 6 + '0'

然后将这些位一次简单地存储在 64 个允许的字符之一中。

如果您先验地不知道有多少位,这就会出现问题,因为如果您在最后一个字符中留下四或五位未使用,则会产生歧义。在这种情况下,代码可以简单地更改为:

0: 000
1: 001
2: 010
3: 011
4: 100
5: 1010
6: 1011
7: 1100
8: 1101
9: 1110
eom: 1111

它需要更多位,但提供了明确的消息结束标记。

对于第一个示例,您将平均每个字符存储 1.76 位数字。对于第二个示例,每个字符 1.71 位,根据您一次编码的位数,减少 eom 标记的一些数量。

如果你真的只能使用 62 个字符,那么我需要再考虑一下。

更新:

快速浏览一下RFC 1738表明可以在 URL 中使用更多字符:

lowalpha       = "a" | "b" | "c" | "d" | "e" | "f" | "g" | "h" |
                 "i" | "j" | "k" | "l" | "m" | "n" | "o" | "p" |
                 "q" | "r" | "s" | "t" | "u" | "v" | "w" | "x" |
                 "y" | "z"
hialpha        = "A" | "B" | "C" | "D" | "E" | "F" | "G" | "H" | "I" |
                 "J" | "K" | "L" | "M" | "N" | "O" | "P" | "Q" | "R" |
                 "S" | "T" | "U" | "V" | "W" | "X" | "Y" | "Z"
alpha          = lowalpha | hialpha
digit          = "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" |
                 "8" | "9"
safe           = "$" | "-" | "_" | "." | "+"
extra          = "!" | "*" | "'" | "(" | ")" | ","
unreserved     = alpha | digit | safe | extra

因此,例如,将 $ 和 _ 添加到您的集合中将使其变为 64。

于 2012-08-01T21:16:26.887 回答