0

我有一个来自统计计算的航空公司数据集,我正在尝试分析。

有变量 DepTime 和 ArrDelay(出发时间和到达延迟)。我正在尝试分析到达延迟如何随着某些出发时间而变化。我的目标是找出一个人在预订机票时应该避免哪些时间段以避免到达延误

我的理解-如果在出发时间> 1800的到达延误和出发时间> 1900的到达延误之间的单尾t检验显示出很高的意义,这意味着应该避免1800到1900之间的航班。(如果我错了,请纠正我)。我想在所有出发时间运行这样的测试。

**对编程和数据科学完全陌生。任何帮助将非常感激。

数据看起来像这样。突出显示的列是我正在分析的列

在此处输入图像描述

4

1 回答 1

0

共享数据图像与提供数据供我们使用不同......

也就是说,我去抓取了一年的数据并进行了处理。

flights <- read.csv("~/Downloads/1995.csv", header=T)

flights <- flights[, c("DepTime", "ArrDelay")]
flights$Dep <- round(flights$DepTime-30, digits = -2)
head(flights, n=25)

# This tests each hour of departures against the entire day. 
# Alternative is set to "less" because we want to know if a given hour
# has less delay than the day as a whole.

pVsDay <- tapply(flights$ArrDelay, flights$Dep, 
                 function(x) t.test(x, flights$ArrDelay, alternative = "less"))

# This tests each hour of departures against every other hour of the day. 
# Alternative is set to "less" because we want to know if a given hour
# has less delay than the other hours.
pAllvsAll <- tapply(flights$ArrDelay, flights$Dep, 
                           function(x) tapply(flights$ArrDelay, flights$Dep, function (z) 
                             t.test(x, z, alternative = "less")))

我会让你弄清楚多重假设检验等。

在此处输入图像描述

全部与全部

在此处输入图像描述

于 2016-11-30T21:54:46.883 回答