我有一个大型数据集,我想创建一个趋势线图。
其中一列保存从(1950 年到 2014 年)的年份,一列保存房屋销售价格,最后一列保存 GrLivArea 数据。
X 轴应该是 salesprices,Y 应该是年份或 GrLivArea。
我想计算每年的平均销售价格,然后根据平均销售价格和 GrLivArea 创建趋势线图,我该怎么做?
> cor(train$SalePrice,train$GrLivArea)
0.7086245
> cor(train$SalePrice,train$YearBuilt)
0.5228973
数据示例;
SalePrice GrLivArea YearBuilt
208500 1710 1950
181500 1710 1950
223500 1786 1965
140000 1717 2000
趋势线公式应该是这样的;首先我必须计算相同数据组的平均值
(208500+181500)/2=195000
聚合函数之后
SalePrice GrLivArea YearBuilt
195000 1710 1950
223500 1786 1965
140000 1717 2000
结果应该是趋势线图或条形图或任何其他有意义的图