我有一组 300,000 条历史客户购买数据记录。我已经启动了 SSAS 数据挖掘项目来识别最佳客户。
数据拆分:-90% 非买家 -10% 买家
我使用了各种 SSAS 算法(决策树和神经网络显示出最佳提升)来探索我的数据。
该项目的目标是根据谁最有可能购买产品来识别/评分客户。
目前,我已将所有记录用于此目的。感觉项目中缺少了一些东西。我现在正在读两本关于数据挖掘的书。他们都谈到将数据挖掘分成不同的集合;但是,他们都没有解释如何实际拆分它们。
我相信我需要将可能的记录分成 3 组并重新运行 ssas 算法。
主要问题:
- 如何将数据拆分为训练集、验证集和测试集 1.1 训练集中的买家和非买家比例应该是多少?
- 我如何根据最有可能购买产品和最不可能购买产品来对我的客户进行评分。