对于那些处理数据的人来说,有一句谚语:“如果你对数据进行了充分的折磨,它几乎会承认任何事情”。这在数学上得到了 Boferroni 定理的支持,该定理指出“随着人们执行越来越多的统计测试,获得错误的重要发现(I 类错误)的可能性也会增加”。例如,众所周知,在《数据挖掘原理》中给出的情况是:“Leinweber(个人通信)提供了这种预测的一个特别幽默的例子,他几乎完美地预测了著名的标准普尔的年度值。 500 金融指数作为前几年的年度值的函数,用于孟加拉国和美国的黄油生产、奶酪生产和绵羊数量。
你有没有遇到过使用过于复杂的模型,结果错误的实际情况?您能否介绍这种情况以及您使用的方法?