0

这是我到目前为止所做的,我很难找出回归线。

  1. 在开始之前,我们要生成两个表。一个用于 2002 年,另一个用于 1999-2001 赛季的平均值。我们要定义每个板的外观统计数据。这是我们创建 2017 表的方法。只保留出场次数超过 100 次的球员。现在计算一个类似的表,但计算的比率是 1999-2001 年的。
library(Lahman)
data("Batting")
avg <- Batting %>% filter(yearID %in% 1999:2001) %>%
  mutate(pa = AB + BB, 
         avg_singles = (H - X2B - X3B - HR) / pa, avg_bb = BB / pa) %>%
  filter(pa >= 100) %>%
  select(playerID, avg_singles, avg_bb)

dat <- Batting %>% filter(yearID == 2002) %>%
  mutate(pa = AB + BB, 
         singles = (H - X2B - X3B - HR) / pa, bb = BB / pa) %>%
  filter(pa >= 100) %>%
  select(playerID, singles, bb)
  1. 计算 2002 年与前几季的单打和 BB 之间的相关性。
dat <- inner_join(dat, avg, by = "playerID")
rdat <- dat %>% 
  summarise(singles_r = cor(singles,avg_singles ), bb_r = cor(bb, avg_bb ))
rdat
  1. 请注意,BB 的相关性更高。为了快速了解与此相关估计相关的不确定性,我们将拟合线性模型并计算斜率系数的置信区间。但是,首先制作散点图以确认拟合线性模型是合适的。
library(ggplot2)
dat %>% 
  ggplot(aes(singles,avg_singles))+
  geom_point(alpha = 0.5)

dat %>% 
  ggplot(aes(bb,avg_bb))+
  geom_point(alpha = 0.5)
  1. 现在为每个指标拟合一个线性模型,并使用 confint 函数来比较估计值。
4

2 回答 2

0

2002 年单身率与 1999-2001 年平均单身率之间的相关性是什么?

以下代码可用于确定相关性:

dat <- inner_join(bat_02, bat_99_01)
cor(dat$singles, dat$mean_singles)

# Correct answer:

[1] 0.5509222

2002 年 BB 利率与 1999-2001 年平均 BB 利率之间的相关性是什么?

以下代码可用于确定相关性:

cor(dat$bb, dat$mean_bb)

# Correct answer:

[1] 0.7174787

于 2022-01-01T15:51:10.363 回答
0

我会用这个lm函数来解决这个问题。
例子:

lm(singles ~ avg_singles , data = dat)

同样的bb

于 2021-09-17T14:10:31.950 回答