python - 使用预定义的目标变量混合进行训练/验证拆分

翻译自：https://stackoverflow.com/questions/52159619 2018-09-04T05:56:01.750

156 次

我希望能够使用用户定义的目标变量混合进行训练/验证拆分。StratifiedKFold并StratifiedShuffleSplit从 sklearn 中保留原始样本中的混合物。但在 kaggle 或现实生活中，我们经常有一个单独的测试样本，有时可能会有非常不同的目标混合物。

假设我们手头有一个二元分类问题，但是标记的训练样本有 0/1 目标 vvalue 的 50/50 混合，而测试没有标签，但是从一个或另一个来源我们知道这个比例相当90/10。所以问题是 sklearn 中是否有一种方法可以将原始样本与 90/10 混合拆分，其中 90/10 将是输入参数。

它不必是一个完整的 kfold CV 拆分，但至少是一个交叉验证索引生成器ala StratifiedShuffleSplit

0 回答 0