首先,从 SPSS/SAS 到 R,数据操作一直是学习中最具挑战性的事情。我个人发现,为分析获取正确形状的数据通常比分析本身要困难得多。其次,真正理解如何通过使用因素来处理分类值。最后,汇总统计数据和描述有时很难以可转换为 PPT 或 Excel 的格式获得,这是(我的)客户通常期望/要求的报告。
我会专注于:
1 数据操作
理解数据结构。进出口。然后深入培训 plyer 等软件包的使用,重塑,特别关注如何有效地使用 cast with formulas 和 melt with ids。如何使用 ddply 在 data.frame 中应用数值函数。
2 分解数据
通常,解释使用 Epicalc 或用户定义的函数处理重新编码。还解释了因素、水平和标签的重要性
3 描述
花几分钟时间介绍 xtabs()、table()、prop.table(),使用 reshape 中的 cast() 创建更合理地导出到 Excel 的柱状数据表。
图形是可选的,如果您在上述方面做得很好,他们应该能够获得在他们最熟悉的任何软件中创建图形所需的数据。
4 图形
如果您在教授数据操作方面做得很好,那么此时将数据制成图形所需的形状应该非常简单(或至少可重现)。ggplot2 很复杂,需要一天时间才能玩完。但是可以快速概述一下。或者,基本图形易于理解,并且帮助更清楚地了解事物的作用以及语法的工作原理。
注意:我省略了统计分析。但是,作为起点,对 lm() 和 anova() 或 cor() 的概述会有所帮助。但这应该与data.manipulation同时解释。