0

假设我有一个数据集,其中:

YearMonth  Client_ID   Label   [More variables]
2021-05            1       1    Any relevant data
2021-05            2       1    Any relevant data
2021-04            3       0    Any relevant data

我们有 20 个唯一值YearMonth,数据集的大小等于Client_ID唯一值。

我有一个接近 5% 的不平衡数据集,即 5% areLabel=1和 95% are Label=0,所以我的分类模型需要考虑这一点。我需要预测Label下个月的情况,所以我留下了一个月(最晚)作为test,所以我将有 19 个月的时间来训练。

是否可以定义 19 k-folds 以便训练过程的每次验证仅在一个月内完成?具体来说,算法训练 18 个月,再过一个月验证,迭代会发生 19 次(必须是 19 次吗?)。模型完成训练后,我将在最初分离的 20 个月中的最后一个月对其进行测试。

如果这是可能的,是否可以在PyCaret包中?我找不到与此相关的任何内容(也许我正在寻找错误的标签)

4

0 回答 0