r - 4. 现在为每个指标拟合一个线性模型，并使用 confint 函数来比较估计值。（击球）

Question

这是我到目前为止所做的，我很难找出回归线。

在开始之前，我们要生成两个表。一个用于 2002 年，另一个用于 1999-2001 赛季的平均值。我们要定义每个板的外观统计数据。这是我们创建 2017 表的方法。只保留出场次数超过 100 次的球员。现在计算一个类似的表，但计算的比率是 1999-2001 年的。

library(Lahman)
data("Batting")
avg <- Batting %>% filter(yearID %in% 1999:2001) %>%
  mutate(pa = AB + BB, 
         avg_singles = (H - X2B - X3B - HR) / pa, avg_bb = BB / pa) %>%
  filter(pa >= 100) %>%
  select(playerID, avg_singles, avg_bb)

dat <- Batting %>% filter(yearID == 2002) %>%
  mutate(pa = AB + BB, 
         singles = (H - X2B - X3B - HR) / pa, bb = BB / pa) %>%
  filter(pa >= 100) %>%
  select(playerID, singles, bb)

计算 2002 年与前几季的单打和 BB 之间的相关性。

dat <- inner_join(dat, avg, by = "playerID")
rdat <- dat %>% 
  summarise(singles_r = cor(singles,avg_singles ), bb_r = cor(bb, avg_bb ))
rdat

请注意，BB 的相关性更高。为了快速了解与此相关估计相关的不确定性，我们将拟合线性模型并计算斜率系数的置信区间。但是，首先制作散点图以确认拟合线性模型是合适的。

library(ggplot2)
dat %>% 
  ggplot(aes(singles,avg_singles))+
  geom_point(alpha = 0.5)

dat %>% 
  ggplot(aes(bb,avg_bb))+
  geom_point(alpha = 0.5)

现在为每个指标拟合一个线性模型，并使用 confint 函数来比较估计值。

score 0 · Accepted Answer

2002 年单身率与 1999-2001 年平均单身率之间的相关性是什么？

以下代码可用于确定相关性：

dat <- inner_join(bat_02, bat_99_01)
cor(dat$singles, dat$mean_singles)

# Correct answer:

[1] 0.5509222

2002 年 BB 利率与 1999-2001 年平均 BB 利率之间的相关性是什么？

以下代码可用于确定相关性：

cor(dat$bb, dat$mean_bb)

# Correct answer:

[1] 0.7174787

score 0 · Accepted Answer

我会用这个lm函数来解决这个问题。
例子：

lm(singles ~ avg_singles , data = dat)

同样的bb。

r - 4. 现在为每个指标拟合一个线性模型，并使用 confint 函数来比较估计值。（击球）

2 回答 2

Related

Reference