我有一个大型 (150,000x7) 数据框,打算用于金融市场的回溯测试和实时分析。数据以 5 分钟间隔代表投资工具的状况(尽管确实存在漏洞)。它看起来像这样(但更长):
pTime Time Price M1 M2 M3 M4
1 1212108300 20:45:00 1.5518 12.21849 -0.37125 4.50549 -31.00559
2 1212108900 20:55:00 1.5516 11.75350 -0.81792 -1.53846 -32.12291
3 1212109200 21:00:00 1.5512 10.75070 -1.47438 -8.24176 -34.35754
4 1212109500 21:05:00 1.5514 10.23529 -1.06044 -8.46154 -33.24022
5 1212109800 21:10:00 1.5514 9.74790 -1.02759 -10.21978 -33.24022
6 1212110100 21:15:00 1.5513 9.31092 -1.17076 -11.97802 -33.79888
7 1212110400 21:20:00 1.5512 8.84034 -1.28428 -13.62637 -34.35754
8 1212110700 21:25:00 1.5509 8.07843 -1.63715 -18.24176 -36.03352
9 1212111000 21:30:00 1.5509 7.39496 -1.49198 -20.65934 -36.03352
10 1212111300 21:35:00 1.5512 7.65266 -1.03717 -18.57143 -34.35754
数据已预加载到 R 中,但在我的回测期间,我需要按两个标准对其进行子集化:
第一个标准是滑动窗口,以避免窥视未来。窗口必须是这样的,回测中每个新的 5 分钟间隔将整个窗口移动到未来 5 分钟。这部分我可以这样做:
require(zoo)
zooser <- zoo(x=tser$Close, order.by=as.POSIXct(tser$pTime, origin="1970-01-01"))
window(zooser, start=A, end=B)
第二个标准是另一个滑动窗口,但它会滑动并仅包含在任何给定日期输入时间的几分钟内的time of day
那些条目。N
示例:如果窗口的大小为2 hours
,输入时间为 ,12:00PM
则窗口必须包含Time
介于10:00AM
和之间的所有行2:00PM
这是我无法弄清楚的部分。
编辑:我的数据中有漏洞,连续两行可能相隔 5 分钟以上。数据看起来像这样(非常放大)
随着窗口在这些间隙中移动,窗口内的点数应该会有所不同。
以下是我想要在 R 中执行的操作(相同的表结构)的 MySQL 代码:
SET @qTime = Time(FROM_UNIXTIME(SAMP_endTime));
SET @inc = -1;
INSERT INTO MetIndListBuys (pTime,ArrayPos,M1,M2,M3,M4)
SELECT pTime,@inc:=@inc+1,M1,M2,M3,M4
FROM mergebuys USE INDEX (`y`) WHERE pTime BETWEEN SAMP_startTime AND SAMP_endTime
AND TIME_TO_SEC(TIMEDIFF(Time,@qTime))/3600 BETWEEN 0-HourSpan AND HourSpan
;