我一直在使用在线时装公司数据集开展一个单独的项目。我的目标是建立一个流失预测模型。为了做到这一点,我设置了一个流失标准,以便客户在 12 个月不活动的情况下流失。但是我在决定训练模型的数据时间线时感到困惑。由于客户流失期是特定于客户的,因此我无法设置特定的日期间隔。我的数据集介于 2015 年和 2018 年 3 月之间,我认为选择一个在 2016 年有交易的样本客户会很好。然后我在数据集中取了最后一个可用日期,即 2018 年 3 月的某一天,并回顾了 12 个月确定谁流失了。然后我选取了我选择的那些在 2016 年进行交易的客户,并在可用数据期间(2015-2018 年)获取了他们的所有交易数据。我还在模型中添加了一个功能,检查客户在过去 3 个月内是否有交易作为二进制变量。但是,我觉得这里有一个错误。我是一个自学成才的人,我找不到合适的指南来在互联网上构建模型。大多数流失预测模型都没有足够详细地讨论数据准备。我希望有人与我分享他们宝贵的想法