model - 数据处理中的模型过于复杂

Question

对于那些处理数据的人来说，有一句谚语：“如果你对数据进行了充分的折磨，它几乎会承认任何事情”。这在数学上得到了 Boferroni 定理的支持，该定理指出“随着人们执行越来越多的统计测试，获得错误的重要发现（I 类错误）的可能性也会增加”。例如，众所周知，在《数据挖掘原理》中给出的情况是：“Leinweber（个人通信）提供了这种预测的一个特别幽默的例子，他几乎完美地预测了著名的标准普尔的年度值。 500 金融指数作为前几年的年度值的函数，用于孟加拉国和美国的黄油生产、奶酪生产和绵羊数量。

你有没有遇到过使用过于复杂的模型，结果错误的实际情况？您能否介绍这种情况以及您使用的方法？

score 2 · Accepted Answer

根据我的经验，主要问题是错误地使用统计方法。一个常见的错误是没有提前确定要测试的数据。我听说一位教授将此与赛马比赛进行了比较，在赛马比赛中，您不是在预定的地方拍摄终点照片，而是当您的马在前面时。这在医学研究中很常见。

我知道的另一个例子是有人做了一个假设数据是正态分布的统计测试——但事实并非如此。

永远不要认为静态依赖是因果关系（例如在法兰克福，艾滋病毒和飞机噪音之间存在依赖关系——这并不意味着飞行噪音会导致艾滋病毒）。

基本上这不是模型的复杂性。您必须使用正确的方法和正确的数据。这已经够难了。您必须在测试之前确定您的数据。如果您想检查一下，只需对掷骰子或掷硬币进行公平性测试。每次滚动/翻转后对所有数据执行此操作。你会时不时地看到它会表明你的死是不公平的。当然——如果你对骰子的公平性进行大量独立测试，你会有一些会表明他是不公平的——但这是统计测试中的预期错误。

统计检查中的另一个非常基本的事情：确定你的假设是什么。有时测试不能显示你想要什么——它只是不能拒绝它。

简而言之 - 不要在没有某种思想和教育的情况下进行数据挖掘/统计分析。统计工作的方式对人类来说是反直觉的，你可以很容易地作弊（你自己和他人）。

model - 数据处理中的模型过于复杂

1 回答 1

Related

Reference