假设我有一个数据集,其中:
YearMonth Client_ID Label [More variables]
2021-05 1 1 Any relevant data
2021-05 2 1 Any relevant data
2021-04 3 0 Any relevant data
我们有 20 个唯一值YearMonth
,数据集的大小等于Client_ID
唯一值。
我有一个接近 5% 的不平衡数据集,即 5% areLabel=1
和 95% are Label=0
,所以我的分类模型需要考虑这一点。我需要预测Label
下个月的情况,所以我留下了一个月(最晚)作为test
,所以我将有 19 个月的时间来训练。
是否可以定义 19 k-folds 以便训练过程的每次验证仅在一个月内完成?具体来说,算法训练 18 个月,再过一个月验证,迭代会发生 19 次(必须是 19 次吗?)。模型完成训练后,我将在最初分离的 20 个月中的最后一个月对其进行测试。
如果这是可能的,是否可以在PyCaret
包中?我找不到与此相关的任何内容(也许我正在寻找错误的标签)