我想以 20:80 的比例将数据集拆分为测试和训练数据集。但是,在拆分时,我不想以 1 S_Id 值在训练中的数据点很少而在测试中的其他数据点的方式进行拆分。
我有一个数据集:
S_Id Datetime Item
1 29-06-2018 03:23:00 654
1 29-06-2018 04:01:00 452
1 29-06-2018 04:25:00 101
2 30-06-2018 05:17:00 088
2 30-06-2018 05:43:00 131
3 30-06-2018 10:36:00 013
3 30-06-2018 11:19:00 092
我想整齐地拆分为:火车:
S_Id Datetime Item
1 29-06-2018 03:23:00 654
1 29-06-2018 04:01:00 452
1 29-06-2018 04:25:00 101
2 30-06-2018 05:17:00 088
2 30-06-2018 05:43:00 131
测试:
S_Id Datetime Item
3 30-06-2018 10:36:00 013
3 30-06-2018 11:19:00 092
所有相同的 S_Id 必须在一组中。可以通过简单的'groupby'来完成吗?
谢谢您的帮助!