我正在为外汇市场设计一个自动交易软件。在 MYSQL 数据库中,我每隔五分钟就有多年的市场数据。除了价格和时间,我有 4 个不同的数据指标。
[Time|Price|M1|M2|M3|M4]
x ~400,0000
Time
是主键,M1
通过M4
是不同的指标(例如标准差或移动平均线的斜率)。
这是一个真实的例子(摘录:)
+------------+--------+-----------+--------+-----------+-----------+
| Time | Price | M1 | M2 | M3 | M4 |
+------------+--------+-----------+--------+-----------+-----------+
| 1105410300 | 1.3101 | 12.9132 | 0.4647 | 29.6703 | 50 |
| 1105410600 | 1.3103 | 14.056 | 0.5305 | 29.230801 | 50 |
| 1105410900 | 1.3105 | 15.3613 | 0.5722 | 26.8132 | 25 |
| 1105411200 | 1.3106 | 16.627501 | 0.4433 | 24.395599 | 26.47059 |
| 1105411500 | 1.3112 | 18.7843 | 1.0019 | 24.505501 | 34.375 |
| 1105411800 | 1.3111 | 19.8375 | 0.5626 | 20 | 32.8125 |
| 1105412100 | 1.3105 | 20.0168 | 0.6718 | 9.7802 | 23.4375 |
| 1105412400 | 1.3105 | 20.4538 | 0.8943 | 7.033 | 23.4375 |
| 1105412700 | 1.3109 | 21.6078 | 0.4902 | 11.7582 | 29.6875 |
| 1105413000 | 1.3104 | 21.2045 | 1.565 | 8.6813 | 21.875 |
+------------+--------+-----------+--------+-----------+-----------+...400k more
给定输入M1
, M2
, M3
, 并且M4
我想(快速准确地)找到 5,000 个最接近的匹配项。
样本输入:
+------------+--------+-----------+--------+-----------+-----------+
| Time | Price | M1 | M2 | M3 | M4 |
+------------+--------+-----------+--------+-----------+-----------+
| 1205413000 | 1.4212 | 20.1045 | 1.0012 | 9.1013 | 11.575 |
+------------+--------+-----------+--------+-----------+-----------+
我认为这些指标中的每一个都可以被视为一个“维度”,并且我可以做一个nearest neighbor search
来定位这个多维空间中最近的数据点。
似乎最简单的方法是遍历每个数据点并测量到我的输入点的多维距离;但速度至关重要!
我读到了一种叫做K-D Trees
用于此目的的东西。谁能解释一下或向我提供一些解释如何在 MYSQL 中实现这一点的材料?
值得一提的是,我可以对表格进行预处理,但输入是实时接收的。
目前我只是围绕每个维度上的数据独立地做了一个粗略的聚类:
INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 < currentM1 ORDER BY M1 DESC LIMIT 2500;
INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 > currentM1 ORDER BY M1 ASC LIMIT 2500;
INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 < currentM2 ORDER BY M2 DESC LIMIT 2500;
INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 > currentM2 ORDER BY M2 ASC LIMIT 2500;
INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 < currentM3 ORDER BY M3 DESC LIMIT 2500;
INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 > currentM3 ORDER BY M3 ASC LIMIT 2500;
INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 < currentM4 ORDER BY M4 DESC LIMIT 2500;
INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 > currentM4 ORDER BY M4 ASC LIMIT 2500;
重要的是要了解我对排名感兴趣的距离,而不是价值。
编辑:我更接近于理解如何做到这一点(我认为):我需要预处理每个指标的每一行并为其分配一个percentile
代表其在其范围内的位置(百分比)的值。
例如,对于任何给定的值M1
:
percentile = (# rows with values less than input)/(# total rows)
如果我计算输入的百分位数并将其用于最近邻搜索而不是实际值,我将有效地缩放各种指标,以便它们可以用作维度。
不过,我仍然不知道如何进行实际搜索。这甚至可以在 MySQL 中有效地完成吗?