这些是关于 R 统计编程的一些新手问题,我无法在网上找到答案。 我的数据框在下面的代码中标记为“eitc”。
1)一旦我加载了一个数据框,我想看看汇总统计数据。我已经使用了以下功能:
eitc <- read.dta(file="/Users/Documents/eitc.dta")
summary(eitc)
sapply(eitc,mean,na.rm=TRUE) #for sample mean, min, max, etc.
当满足某些条件时,如何在我的数据框上找到汇总统计信息。比如我想看变量“children”大于等于1时所有变量的汇总统计,等价的Stata代码为:
summarize if children >= 1
2)同样,当满足某些条件时,我如何找到特定的参数?例如,当“post93”变量等于 0 且“anykids”变量等于 1 时,我想找到变量“work”的平均值。等效的 Stata 代码是:
mean work if post93==0 & anykids==1
3)理想情况下,当我运行上面的汇总统计数据时,我想找出计算中包含多少观察值/符合标准。
4)当我读入我的数据框时,很高兴看到数据集中包含了多少观察值(也许有多少行有缺失值或“NA”)。
5)另外,我一直在使用以下代码创建虚拟变量。这是正确的方法还是有更有效的方法?
post93.dummy <- as.numeric(eitc$year>1993)
eitc=cbind(eitc,post93.dummy)