几天来我一直在寻找解决方案,但还没有任何效果。我正在尝试使用大学记分卡数据对大学成本和毕业生收入进行非常基本的线性回归。
这是我读取数据的方式:
library(readr)
CollegeScorecard2015 <- read_csv("~/Downloads/CollegeScorecard2015.csv", na = "null")
View(CollegeScorecard2015)
一切看起来都很好。然后我尝试运行回归,参考大学记分卡的“数据字典”中的变量。如果我使用其中任何一种:
regmod = lm(MN_EARN_WNE_P10~NPT4_PUB)
或者
regmod = lm(MN_EARN_WNE_P10$CollegeScorecard2015~NPT4_PUB$CollegeScorecard2015)
然后我收到这条消息:
Error in eval(expr, envir, enclos) : object 'MN_EARN_WNE_P10' not found
并且,在总结之后:
In summary.lm(regmod) : essentially perfect fit: summary may be unreliable
如果我改用它,如this thread建议的那样:
regmod = lm(MN_EARN_WNE_P10 ~ NPT4_PUB, data = CollegeScorecard2015)
然后我得到以下信息:
Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) : NA/NaN/Inf in 'y'
In addition: Warning message:
In model.response(mf, "numeric") : NAs introduced by coercion
以及与上述摘要后相同的消息。
这可能是数据集的问题吗?我不确定它会是什么,因为我可以看到数据就在那里。变量与数据字典匹配。不知道该怎么做。任何帮助表示赞赏。