mysql - 将时间序列数据存储在数据库或二进制文件中

Question

我正在存储大量时间序列金融市场报价数据。

通常，这些数据是按顺序写入的（即 - 数据在进入时加上时间戳，然后写入 db）。

我需要根据时间戳读取数据（仅） - 即一般查询类似于“选择 2012 年 1 月 1 日至 2012 年 2 月 1 日之间的所有数据”。

问题：如果 READ 性能是最重要的，我是否最好将此数据存储在二进制文件或 mySQL 数据库中？

在我看来，数据的特性可能更适合文件，而我的初步测试似乎表明这样更快（即，我可以更快地读回数据）。

score 1 · Accepted Answer

您的描述仅涉及时间维度。但是其他维度是什么？可能是不同的金融工具（MSFT、IBM、AAPL 等）。

金融市场数据的本质通常是按时间维度排序（每天更新数十万个股票价格），但按金融工具维度查询（查询单个工具的所有价格，可能有点受限于时间）。

因此，如果您想要最大的读取性能，您必须确保您的数据不是以接收方式存储，而是以查询方式存储，即在磁盘上，必须按金融工具进行物理排序。

我过去在 Oracle 中成功地实现了这一点。在那里，您基本上创建了一个索引组织表，其中金融工具标识符和日期作为主键（标识符必须是第一个）。然后，Oracle 将或多或少地存储按金融工具标识符和日期排序的数据。因此，如果您在给定时间范围内查询单个工具的股票价格，所有需要的数据都将位于连续的磁盘页面上，并且已经处于所需的顺序，因此查询将非常快。

我对MySQL没有太多经验。但据我了解，您可以使用 InnoDB 存储引擎和聚集索引来实现相同的效果：

CREATE TABLE prices (
    ticker CHAR(10),
    date DATE,
    close NUMBER(10, 4),
    PRIMARY KEY (ticker, date)
) ENGINE=InnoDB;

请不要使用二进制文件。你会后悔的。

mysql - 将时间序列数据存储在数据库或二进制文件中

1 回答 1

Related

Reference