3

我有一个返回字节数组序列的字节流,每个字节数组代表一条记录。

我想将流解析为单个字节 [] 的列表。目前,我已经破解了一个三字节分隔符,以便我可以识别每条记录的结尾,但有顾虑。

我看到有一个标准的 Ascii 记录分隔符。

30  036 1E  00011110    RS        Record Separator

如果字节数组(采用 UTF-8 编码)已被压缩和/或加密,那么使用从该字符派生的 byte[] 作为分隔符是否安全?我担心的是加密/压缩输出可能会出于其他目的产生记录分隔符。请注意,单个 byte[] 记录是压缩/加密的,而不是整个流。

我正在使用 Java 8 并使用 Snappy 进行压缩。我还没有选择加密库,但它肯定是更强大的标准私钥方法之一。

4

2 回答 2

8

如果您正在处理随机的非结构化数据(压缩/加密数据非常相似),则不能简单地将字节声明为分隔符,因为分隔符始终可以作为此类数据中的常规数据字节出现。

如果在开始写的时候已经知道数据的大小,一般只是先写大小,再写数据。回读时,您知道您需要先读取大小(例如,int 为 4 个字节),然后再读取大小指示的字节数。

如果你在写的时候不能告诉大小,这显然是行不通的。在这种情况下,您可以使用转义机制,例如选择一个很少出现的字节作为转义字符,转义该字节在数据中的所有出现并使用不同的字节作为结束指示符。

例如

final static byte ESCAPE = (byte) 0xBC;
final static byte EOF = (byte) 0x00;

OutputStream out = ...
for (byte b : source) {
    if (b == ESCAPE) {
        // escape data bytes that have the value of ESCAPE
        out.write(ESCAPE);
        out.write(ESCAPE);
     } else {
        out.write(b);
     }
}
// write EOF marker ESCAPE, EOF
out.write(ESCAPE);
out.write(EOF);

现在,当您读取 ESCAPE 字节时,您读取下一个字节并检查 EOF。如果它不是 EOF,则它是一个转义的 ESCAPE,它表示一个数据字节。

InputStream in = ...
ByteArrayOutputStream buffer = new ByteArrayOutputStream();
while ((int b = in.read()) != -1) {
    if (b == ESCAPE) {
        b = in.read();
        if (b == EOF)
            break;
        buffer.write(b);
    } else {
         buffer.write(b);
    }
}

如果要写入的字节完全随机分布,这将使流长度增加 1/256,对于不完全随机的数据域,您可以选择出现频率最低的字节(通过静态数据分析或只是有根据的猜测) .

编辑:您可以通过使用更复杂的逻辑来减少转义开销,例如,示例只能创建 ESCAPE + ESCAPE 或 ESCAPE + EOF。在示例中,其他 254 个字节永远不能跟随 ESCAPE,因此可以利用它来存储合法的数据组合。

于 2015-08-14T17:16:56.080 回答
2

这是完全不安全的,你永远不知道你的数据中会出现什么。也许你应该考虑像protobuf这样的东西,或者像“先写记录长度,然后写记录,然后冲洗,起泡,重复”这样的方案?

如果有长度,则不需要分隔符。您的阅读方读取长度,然后知道要为第一条记录读取多少,然后知道要读取下一个长度——所有这些都假设长度本身是固定长度的。

请参阅开发人员对流式传输 protobuf 序列的建议

于 2015-08-14T16:34:27.590 回答