1

我有数十亿个对象,我试图将它们构建在序列化为 HDD 的 B+Tree 中。我使用BPlusTree库作为数据结构,使用protobuf-net进行序列化/反序列化。在这方面,我将我的类定义为:

    [ProtoContract]
    public class B<C, M>
        where C : IComparable<C>
        where M : IData<C>
    {
        internal B()
        {
            lambda = new List<Lambda<C, M>>();
            omega = 0;
        }

        internal B(C coordinate)
        {
            lambda = new List<Lambda<C, M>>();
            e = coordinate;
            omega = 0;
        }

        [ProtoMember(1)]
        internal C e { set; get; }

        [ProtoMember(2)]
        internal List<Lambda<C, M>> lambda { private set; get; }

        [ProtoMember(3)]
        internal int omega { set; get; }
    }


[ProtoContract]
public class Lambda<C, M>
    where C : IComparable<C>
    where M : IData<C>
{
    internal Lambda() { }

    internal Lambda(char tau, M atI)
    {
        this.tau = tau;
        this.atI = atI;
    }

    [ProtoMember(1)]
    internal char tau { private set; get; }

    [ProtoMember(2)]
    internal M atI { private set; get; }
}

我将我的序列化器/反序列化器定义如下:

public class BSerializer<C, M> : ISerializer<B<C, M>>
        where C : IComparable<C>
        where M : IData<C>
    {
        public B<C, M> ReadFrom(System.IO.Stream stream)
        {
            return Serializer.Deserialize<B<C, M>>(stream);
        }

        public void WriteTo(B<C, M> value, System.IO.Stream stream)
        {
            Serializer.Serialize<B<C, M>>(stream, value);
        }
    }

然后我在 B+Tree ( This library ) 数据结构中使用它们,该数据结构定义为:

var options = new BPlusTree<C, B<C, M>>.OptionsV2(CSerializer, BSerializer);
var myTree = new BPlusTree<C, B<C, M>>(options);

B+Tree 被定义为键值对的字典。My key(ie, C) 是一个整数,序列化器是BPlusTree库的默认序列化器。MyValue是一个自定义对象B<C,M>,使用protobuf-net.

我的问题肯定会发生,但几乎是随机的;总是在搜索Keys,它突然开始反序列化Valueand 在第一次调用B<C, M> ReadFrom(System.IO.Stream stream)它时要求TypeModel.CSProtoReader.CS文件。我从NuGet.

4

2 回答 2

2

检查代码,看起来调用代码假设序列化知道它们自己的长度;从来源:

foreach (T i in items)
    _serializer.WriteTo(i, io);

protobuf消息不会自行终止- google protobuf 规范定义了 append===merge。因此,您需要为消息添加前缀。幸运的是,您应该能够切换到SerializeWithLengthPrefixand DeserializeWithLengthPrefix。如果这不起作用,那么值得将一个完全可重现的示例放在一起,以便对其进行调查。

于 2014-10-06T13:48:48.440 回答
2

作为解决此问题的替代方法,您还可以聚合内置 serailizers 的行为:

    class BSerializer<C, M> : ISerializer<B<C, M>>
        where C : IComparable<C>
        where M : IData<C>
    {
        public B<C, M> ReadFrom(System.IO.Stream stream)
        {
            byte[] value = CSharpTest.Net.Serialization.PrimitiveSerializer.Bytes.ReadFrom(stream);
            return Serializer.Deserialize<B<C, M>>(new MemoryStream(value));
        }

        public void WriteTo(B<C, M> value, System.IO.Stream stream)
        {
            using (var memory = new MemoryStream())
            {
                Serializer.Serialize<B<C, M>>(memory, value);
                CSharpTest.Net.Serialization.PrimitiveSerializer.Bytes.WriteTo(memory.ToArray(), stream);
            }
        }
    }

注意:由于不必要的数据副本,这种方法可能会导致性能问题;但是,它可以帮助解决问题。

另一种可能性是简单地将树定义为BPlusTree<TKey, byte[]>并提供PrimitiveSerializer.Bytes作为值序列化器。这将对象序列化的负担放在调用者身上,这可能是一件非常好的事情。这可能是有益的原因有两个:

  1. 您的对象模型不再需要是不可变的。
  2. 如果对象的反序列化成本很高,则在随机访问使用中可能会执行得更好。

有关其他常见的序列化问题和一些示例,请阅读以下文章:

http://csharptest.net/1230/bplustree-and-custom-iserializer-implementations/

于 2014-10-09T00:40:48.170 回答