java - 在 Java 中使用 proto3 时，对象中的长值未正确序列化和反序列化

Question

我正在尝试使用 proto3 序列化和反序列化 java 中的对象。这是我在 proto 中的对象的样子

option java_multiple_files = true;
option java_package = "com.project.dataModel";
option java_outer_classname = "FlowProto";


// The request message containing the user's name.
message Flow {
    string subscriberIMSEI = 1;
    string destinationIP = 2;
    uint64 txBytes = 3;
    uint64 rxBytes = 4;
    uint64 txPkts = 5;
    uint64 rxPkts = 6;
    uint64 startTimeInMillis = 7;
    uint64 endTimeInMillis = 8;
    string asnNumber = 9;
    string asnName = 10;
    string asnCountryCode = 11;

}

这是我在 java 中的序列化和反序列化的样子

public class Test {

    public static void main(String[] args) throws Exception {

        Flow flow =
                Flow.newBuilder().setAsnName("abc")
                        .setEndTimeInMillis(123456789L)
                        .setStartTimeInMillis(123456789L)
                .setDestinationIP("1.1.1.1")
                .setTxBytes(1L)
                .setRxBytes(1L)
                .setTxPkts(1L)
                .setRxPkts(1L)
                .setAsnName("blah")
                .setAsnCountryCode("blah")
                .build();

        byte[] flowByteArray = flow.toByteArray();

        String flowString = flow.toByteString().toStringUtf8();

        System.out.println("Parsed from ByteArray:" + Flow.parseFrom(flowByteArray).getEndTimeInMillis());
        System.out.println("Parsed from ByteString:" + Flow.parseFrom(ByteString.copyFromUtf8(flowString))
                .getEndTimeInMillis());
    }
}

我的输出如下

Parsed from ByteArray:123456789
Parsed from ByteString:-4791902657223630865

当我尝试使用 ByteString 和 utf-8 路由进行序列化和反序列化时，我哪里出错了？

谢谢！

score 4 · Accepted Answer

您看到问题的原因是您的序列化字节数组已损坏。发生这种情况是因为 UTF-8 是一种可变长度编码，并且转换为 UTF-8 字符串会更改原始数组中的字节。当你在做flow.toByteString().toStringUtf8()原始字节串中的一个字节时，可能会被转换成三个具有不同值的新字节。然后，当您执行ByteString.copyFromUtf8(flowString)此操作时，字节更改不会撤消，因为该行代码实际上只是检索转换后的 UTF-8 字节，而不是您输入的原始字节。

这是一个小测试，说明您看到的问题

@Test
public void byteConsistency() {
  byte[] vals = new byte[] {0, 110, -1};
  ByteString original = ByteString.copyFrom(vals);
  ByteString newString = ByteString.copyFromUtf8(original.toStringUtf8());

  for (int index = 0; index < newString.size(); index++) {
    System.out.println(newString.byteAt(index));
  }
}

您会期望此代码输出

0
110
-1

但它实际上输出

这是因为 UTF-8 可能规定 -1 (0xFF) 字节应编码为三个字节 [-17, -65, -67]。

总之，在处理 protobuf 时，不要将序列化的对象转换为 UTF-8 字符串。仅使用原始字节进行序列化和反序列化。如果您尝试转换为 UTF-8 字符串，则序列化字节将被损坏，您将无法反序列化它们。

java - 在 Java 中使用 proto3 时，对象中的长值未正确序列化和反序列化

1 回答 1

Related

Reference