2

我正在使用由字符串和映射组成的简单记录来测试 Avro for java。这是我的架构:

{
  "type":"record",
  "name":"TableRecord",
  "fields":[
    {"name":"ActionCode","type":"string"},
    {
      "name":"Fields",
      "type":{"type":"map","values":["string","long","double","null"]}
    }
  ]
}

这是一个非常简单的失败测试用例:

@Test
public void testSingleMapSerialization() throws IOException {
    final String schemaStr; // see above

    // create some data
    Map<String, Object> originalMap = new Hashtable<>();
    originalMap.put("Ric", "sZwmXAdYKv");
    originalMap.put("QuoteId", 4342740204922826921L);
    originalMap.put("CompanyName", "8PKQ9va3nW8pRWb4SjPF2DvdQDBmlZ");
    originalMap.put("Category", "AvrIfd");

    // serialize data
    Schema.Parser parser = new Schema.Parser();
    Schema schema = parser.parse(schemaStr);
    ByteArrayOutputStream out = new ByteArrayOutputStream();
    DatumWriter<GenericRecord> writer = new GenericDatumWriter<>(schema);
    Encoder encoder = EncoderFactory.get().binaryEncoder(out, null);
    GenericRecord datum = new GenericData.Record(schema);
    datum.put("ActionCode", "R");
    datum.put("Map", originalMap);
    writer.write(datum, encoder);
    encoder.flush();
    out.flush();

    // deserialize data
    DatumReader<GenericRecord> reader = new GenericDatumReader<>(schema);
    Decoder decoder = DecoderFactory.get().binaryDecoder(out.toByteArray(), null);
    datum = new GenericData.Record(schema);
    Map<String, Object> deserializedMap = (Map<String, Object>) reader.read(datum, decoder).get("Map");
    System.out.println(originalMap);
    System.out.println(deserializedMap);
    Assert.assertEquals("Maps data don't match", originalMap, deserializedMap);
}

这是测试的输出:

{CompanyName=8PKQ9va3nW8pRWb4SjPF2DvdQDBmlZ, Ric=sZwmXAdYKv, Category=AvrIfd, QuoteId=4342740204922826921}
{QuoteId=4342740204922826921, Category=AvrIfd, CompanyName=8PKQ9va3nW8pRWb4SjPF2DvdQDBmlZ, Ric=sZwmXAdYKv}

java.lang.AssertionError: Maps data don't match expected:<{CompanyName=8PKQ9va3nW8pRWb4SjPF2DvdQDBmlZ, Ric=sZwmXAdYKv, Category=AvrIfd, QuoteId=4342740204922826921}> but was:<{QuoteId=4342740204922826921, Category=AvrIfd, CompanyName=8PKQ9va3nW8pRWb4SjPF2DvdQDBmlZ, Ric=sZwmXAdYKv}>

如您所见,两张地图看起来相同,但测试失败。JUnit 在幕后调用“equals”方法,这应该返回 true。顺便说一句,如果您想知道什么是乱码,我通常会使用随机生成的数据创建测试用例,这就是它的来源。

难道我做错了什么?我不知道字符串序列化/反序列化有什么问题吗?我在网上搜索没有成功。

想法?

谢谢

乔杜德

4

2 回答 2

3

我弄清楚了“捕获”是什么。我正在将包含java.lang.Strings 的地图与包含的地图进行比较org.apache.avro.util.Utf8. 事实证明,如果与字符串一起使用,Utf8 equals 方法将不起作用。我通过在我的测试用例中添加以下内容来实现这一点:

for (Object o : deserializedMap.values())
  System.out.println(o.getClass());
for (Object o : deserializedMap.keySet())
  System.out.println(o.getClass());

打印以下内容:

class java.lang.Long
class org.apache.avro.util.Utf8
class org.apache.avro.util.Utf8
class org.apache.avro.util.Utf8
class org.apache.avro.util.Utf8
class org.apache.avro.util.Utf8
class org.apache.avro.util.Utf8
class org.apache.avro.util.Utf8

我想这是意料之中的,因为 Avro 总是将字符串转换为其本机Utf8类型。我以为它会按原样复制我的地图,但事实并非如此。奇怪的是,类型转换为 Map 成功,我不清楚这是怎么发生的。

于 2013-03-28T20:43:09.337 回答
1

是的,Avro map 从 1.5 开始使用 org.apache.avro.util.Utf8 作为默认键,并且可以更改为 String。更多详情,您可以参考:https ://issues.apache.org/jira/browse/AVRO-803或Apache Avro:map 使用 CharSequence 作为 key

于 2014-05-19T07:16:13.960 回答