1

我正在存储大量时间序列金融市场报价数据。

通常,这些数据是按顺序写入的(即 - 数据在进入时加上时间戳,然后写入 db)。

我需要根据时间戳读取数据(仅) - 即一般查询类似于“选择 2012 年 1 月 1 日至 2012 年 2 月 1 日之间的所有数据”。

问题:如果 READ 性能是最重要的,我是否最好将此数据存储在二进制文件或 mySQL 数据库中?

在我看来,数据的特性可能更适合文件,而我的初步测试似乎表明这样更快(即,我可以更快地读回数据)。

4

1 回答 1

1

您的描述仅涉及时间维度。但是其他维度是什么?可能是不同的金融工具(MSFT、IBM、AAPL 等)。

金融市场数据的本质通常是按时间维度排序(每天更新数十万个股票价格),但按金融工具维度查询(查询单个工具的所有价格,可能有点受限于时间)。

因此,如果您想要最大的读取性能,您必须确保您的数据不是以接收方式存储,而是以查询方式存储,即在磁盘上,必须按金融工具进行物理排序。

我过去在 Oracle 中成功地实现了这一点。在那里,您基本上创建了一个索引组织表,其中金融工具标识符和日期作为主键(标识符必须是第一个)。然后,Oracle 将或多或少地存储按金融工具标识符和日期排序的数据。因此,如果您在给定时间范围内查询单个工具的股票价格,所有需要的数据都将位于连续的磁盘页面上,并且已经处于所需的顺序,因此查询将非常快。

我对MySQL没有太多经验。但据我了解,您可以使用 InnoDB 存储引擎和聚集索引来实现相同的效果:

CREATE TABLE prices (
    ticker CHAR(10),
    date DATE,
    close NUMBER(10, 4),
    PRIMARY KEY (ticker, date)
) ENGINE=InnoDB;

请不要使用二进制文件。你会后悔的。

于 2013-01-02T09:11:51.753 回答