-1

我收到了一篇关于使用机器学习预测股市的论文的反馈,审稿人问了以下问题:

我希望您对您的方法的样本外性能进行统计测试。因此,在原始措辞中“显着不同”。我同意一些图形在视觉上看起来很棒,但在视觉上,随机噪声似乎包含模式。我相信 Sortino Ratio 是适合测试的统计数据,并且可以使用 bootstrap 进行测试。即,获得 BH 和您的策略的分布,并计算这些分布的重叠。

我的问题是我从来没有对时间序列数据这样做过。我的验证过程使用了一种叫做向前走的策略,我在时间上移动数据 11 次,生成 11 种不同的训练和测试组合,没有重叠。所以,这是我的问题:

1-考虑到审稿人的要求,最好(或更合适)的统计测试是什么?

2-如果我没记错的话,统计测试需要向量作为输入,对吗?我可以生成一个包含 11 个 sortino 比率值(每次步行 1 个)的向量,然后将它们与基线进行比较?还是我应该多次运行我的代码?考虑到审查的排序时间,我担心最后的选择是不可行的。

那么,在这个时间序列场景中统计比较机器学习方法的正确行动是什么?

4

1 回答 1

1

指出random noise seems to contain patterns,这意味着您的图有很好的模式,但它可能是[x] 分布之后的随机噪声(即随机均匀噪声),这会使事情变得不那么准确。将数据随机分成 ak 组可能是个好主意,然后应用 Z-Test 或 T-test,成对比较k -groups

审阅者指出 Sortino ratio这似乎是模棱两可的,因为您的目标是拥有一个机器学习模型,对于预测任务,这意味着您真正关心的是如果您使用Cross可以授予的预测准确性可靠性-验证,在凸优化中相当于使用敏感性分析


更新

时间序列数据的序列依赖性问题,在我们有 非平稳时间序列数据(低模式)的情况下提出,这似乎不是您的数据的问题,即使是这种情况,也可以通过删除来解决趋势,即将非固定时间序列转换为固定时间序列,例如使用ADF 测试,也可以考虑使用ARIMA 模型

时移,有时可能很有用,但它不被认为是衡量噪声的好方法,但它可能有助于通过移动数据和提取一些特征(例如均值、窗口大小的方差等)来提高模型的准确性。

没有什么可以阻止您尝试时移方法,但您不能其作为准确的测量值,您仍然需要使用更强大的技术来证明您的统计分析

于 2020-07-06T19:35:00.980 回答