我的数据结构是
id value1 value2
1 0.12 1
2 0.09 0
3 0.05 0
4 0.65 1
5 0.68 0
...
我需要使用 拆分数据value1
,例如 0< value1 <=0.2 == 1 或 0.2 < value1 <=0.4 == 2...(最大值value1
为 1,最小值value1
为 0)
我的观点是,我想利用value1
范围作为拆分的参考。
所以,我会期待这样的结果。
id value1 value2 group
1 0.12 1 1 (because value1 is range of 0~0.2)
2 0.09 0 1 (because value1 is range of 0~0.2)
3 0.05 0 1 (because value1 is range of 0~0.2)
4 0.65 1 4 (because value1 is range of 0.6~0.8)
5 0.68 0 4 (because value1 is range of 0.6~0.8)
...
组向量不能有值 2 或 3。这是因为value1
不包括 0.2~0.4 和 0.4~0.6 的范围。
另外,我需要按组计算value2
因子的比率。
根据上述数据,group1
由 33.33% 1 和 66.66% 0 组成。另外,group4
由 50% 1 和 50% 0 组成。
我该如何处理这个问题?