我拥有的是大约 130GB 的数千种金融工具订单簿的时变状态数据。
我拥有的 csv 文件在订单簿状态的每次更改中都包含一行(由于执行的交易、插入的订单等)。状态被描述为:一般订单信息的几个字段(例如工具的isin代码),有关状态变化的一些信息字段(例如orderType,时间),最后是当前状态的买入和卖出水平。卖出和买入订单最多有 20 个级别(买入级别 1 代表最佳买入价,卖出级别 1 代表最佳卖出价等),每个级别包含 3 个字段(价格、总成交量和订单金额)。最后,对于买方和卖方,还有 3 个超过 20 级别的聚合数据字段。这相当于每个州最多 21*2*3 = 126 个级别数据字段。
问题在于,由于几乎不存在接近 20 个级别的任何地方,因此为每个级别保留字段似乎没有意义。例如,我会有一行有 3 个买入级别,其余字段为空。另一方面,同一订单簿在片刻后可能有 7 个买入级别。
我肯定会将一般订单信息规范化到它自己的表中,但我不知道如何有效地处理级别。
任何帮助将非常感激。