2

我想屏蔽 PII(个人身份信息),如姓名。出生日期、SSN、信用卡号、电话号码等。它应该保持相同的格式,意味着它看起来像真实数据。而且不应该是可逆的。它应该花费更少的时间来掩盖。任何人请帮助我。

4

1 回答 1

3

用辅音代替辅音,用元音代替元音,用数字代替数字:

import java.util.Random;

public class Example {

    static char randomChar (Random r, String cs, boolean uppercase) {
        char c = cs.charAt(r.nextInt(cs.length()));
        return uppercase ? Character.toUpperCase(c) : c;
    }

    static String mask (String str, int seed) {

        final String cons = "bcdfghjklmnpqrstvwxz";
        final String vowel = "aeiouy";
        final String digit = "0123456789";

        Random r = new Random(seed);
        char data[] = str.toCharArray();

        for (int n = 0; n < data.length; ++ n) {
            char ln = Character.toLowerCase(data[n]);
            if (cons.indexOf(ln) >= 0)
                data[n] = randomChar(r, cons, ln != data[n]);
            else if (vowel.indexOf(ln) >= 0)
                data[n] = randomChar(r, vowel, ln != data[n]);
            else if (digit.indexOf(ln) >= 0)
                data[n] = randomChar(r, digit, ln != data[n]);
        }

        return new String(data);

    }

    public static void main (String[] args) {

        System.out.println(mask("John Doe, 534 West Street, Wherever, XY. (888) 535-3593. 399-35-3535", 0));

    }
}

这会产生输出:

    Bumk Tyy, 194 Wyrd Tggoyb, Flikibod, QY。(557) 722-5385。055-08-1462

从输入:

    John Doe,西街 534 号,无论何处,XY。(888) 535-3593。399-35-3535

生成种子由您决定。如果您想保证相同的输入总是产生相同的输出,请使用基于输入数据(例如校验和)的种子以及一致的 RNG。

可以通过使用字符类表而不是例如来进行性能优化vowel.indexOf()。可以进行进一步的微优化(例如重用Random、仅操作char[]和减少新String分配等)

完全支持 Unicode 会遇到很大的困难。掩蔽也不会改变组件的长度。

总而言之,我认为这是一个糟糕但至少适度有趣的算法。

我认为您不理解您所要求的(看起来真实的输出)超出了正常加密主题的范围,并且不适合“效率”,因为需要进行一些形态分析才能产生有意义的结果(同样,国际化使这显着复杂化)。

于 2014-03-13T18:58:53.477 回答