我正在尝试建立一个模型,该模型将预测我们的一个办公室在给定月份将完成多少笔交易。
我开始尝试使用这篇文章来学习如何构建这样的模型:https ://medium.com/@davidsb/datascience-for-developers-build-your-first-predictive-model-with-r-a798f684752f
但是,他们正在构建的模型似乎是针对 1 个因素的。理想情况下,我希望能够选择month = January, office = Atlanta
,输出将是亚特兰大办事处预计在一月份完成的交易数量的估计值。
我的数据集组织如下:
Office DealMonth DealYear CountDeals
Atlanta 1 2015 10
Atlanta 2 2016 35
有没有一种简单的方法来调整文章中概述的基本模型以获得我想要的结果?
编辑:代码如下:
dat = read.csv("RawDataDealCountSummary.csv")
head(dat)
str(dat)
dat$DealMonth = factor(dat$DealMonth)
train_data = dat[dat$DealYear<2017,]
test_data = dat[dat$DealYear == 2017,]
head(train_data)
head(test_data)
test_counts <- test_data$DealCount
plot(dat$ï..DealOffice, dat$DealCount)
model=rpart(DealCount ~ ï..DealOffice + DealMonth, train_data,)
p = predict(model, test_data)
plot(p - test_counts)
predict(model, data.frame(ï..DealOffice = factor('Atlanta'), DealMonth = factor(12)))