8

客观的

为了通过具有哪些特征或属性来澄清,我可以说分析是推理性的或预测性的。

背景

参加涉及推理和预测分析的数据科学课程。解释(我所理解的)是

  • 推理的

    从群体中的小样本中得出一个假设,并在更大/整个群体中看到它是正确的。

    在我看来,这是一种概括。我认为诱导吸烟导致肺癌或二氧化碳导致全球变暖是推论分析。

  • 预测性的

    通过测量对象的变量来归纳可能发生的事情的陈述。

    我认为,确定人们对哪些特征、行为、言论做出积极反应并使总统候选人足够受欢迎以成为总统是一种预测分析(这也在课程中涉及)。

问题

我对这两者有点困惑,因为在我看来有一个灰色区域或重叠。

贝叶斯推理是“推理”,但我认为它用于预测,例如垃圾邮件过滤器或欺诈性金融交易识别。例如,银行可以使用先前对变量(如 IP 地址、发起国、受益人账户类型等)的观察,并预测交易是否具有欺诈性。

我想相对论是一种推论分析,它从观察和思想实验中得出一个理论/假设,但它也预测光的方向会弯曲。

请帮助我了解将分析归类为推理性或预测性的必备属性。

4

3 回答 3

9

“什么问题?” 作者:Jeffery T. Leek,Roger D. Peng很好地描述了典型数据科学工作流程中的各种分析类型。具体解决您的问题:

推理数据分析量化了观察到的模式是否可能超出手头的数据集。这是正式科学文献中最常见的统计分析。一个例子是关于空气污染是否与美国各州的预期寿命相关的研究 (9)。在非随机实验中,通常只能确定两个测量值之间是否存在关系,而不能确定其潜在机制或原因。

除了在人口规模上量化关系的推理数据分析之外,预测数据分析还使用测量的子集(特征)来预测单个人或单位的另一个测量(结果)。FiveThirtyEight.com 等网站使用民意调查数据来预测人们将如何在选举中投票。预测性数据分析仅表明您可以从另一个测量中预测一个测量值;他们不一定解释为什么这种预测选择有效。

数据分析流程图

于 2017-05-14T20:21:22.260 回答
7

两者之间有一些灰色地带,但我们仍然可以做出区分。

推论统计是指您试图了解导致特定结果的原因。在此类分析中,特别关注自变量,并且您希望确保您拥有可解释的模型。例如,您在一项研究中检查吸烟是否会导致肺癌的例子是推论性的。在这里,您试图仔细检查导致肺癌的因素,而吸烟恰好是其中之一。

在预测分析中,您更感兴趣的是使用某个数据集来帮助您预测结果变量值的未来变化。在这里,您可以使您的模型尽可能复杂,以至于只要它完成工作,它就无法解释。一个更简单的例子是一家房地产投资公司,它有兴趣确定哪些变量组合可以预测某个房产的最优惠价格,以便它可以获取它们以获取利润。潜在的预测因素可能是社区收入、犯罪、教育状况、到海滩的距离和种族构成。这里的主要目的是获得这些变量的最佳组合,从而更好地预测未来的房价。

这是它变得模糊的地方。假设您对中年男性进行了一项研究,以确定患心脏病的风险。为此,您需要测量体重、身高、种族、收入、婚姻状况、胆固醇、教育程度以及一种称为“mx34”(只是虚构)的潜在血清化学物质。假设您发现这种化学物质确实是心脏病的一个很好的危险因素。您现在已经实现了推理目标。但是,您对新发现感到满意,并开始怀疑是否可以使用这些变量来预测谁可能患心脏病。您希望这样做,以便您可以推荐预防措施来预防未来的心脏病。

于 2015-12-26T19:47:15.840 回答
1

我正在阅读的同一篇学术论文对我提出了这个问题,也给出了答案(来自加州大学伯克利分校的统计学家 Leo Breiman):

• 预言。能够预测对未来输入变量的响应;

• [推理]。23 [推断]自然如何将响应变量与输入变量相关联。

资料来源:http ://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf

于 2019-08-10T18:34:09.750 回答