1

我正在研究一个研究问题,并且由于包含主题的小型数据集,我正在尝试实施 Leave N Out 样式分析。

目前我正在做这个临时的,我偶然发现了 scikit-learn LeavePGroupsOut 函数。

我阅读了文档,但无法理解如何在多维数组中使用它。

我的数据如下:我有 50 个主题,每个主题大约 20 个条目(不固定)和每个条目的 20 个特征,每个条目的真实值(0 或 1)。

4

1 回答 1

1

那么文档实际上很清楚: https ://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeavePGroupsOut.html#sklearn.model_selection.LeavePGroupsOut

在您的情况下,您需要连接您的数组 st 您可以为每个条目提供并具有组索引。因此,您的特征数组将具有 50*20 数据点乘以 20 个特征 (1000,20) 的形状,因此您的组数组也需要具有形状 (1000,)。

然后你需要通过定义交叉验证

lpgo = LeavePGroupsOut(n_groups=n_groups)

重要的是要注意,这将导致所有可能的遗漏测试组组合。

于 2020-11-27T14:29:25.153 回答