我的数据包含连续和分类特征的组合。下面是我的数据在 csv 格式中的样子的小片段(将其视为由在不同城市经营商店的超级连锁店收集的数据)
city,avg_income_in_city,population,square_feet_of_store_area, store_type ,avg_revenue
NY ,54504 , 3506908 ,3006 ,INDOOR , 8000091
CH ,44504 , 2505901 ,4098 ,INDOOR , 4000091
HS ,50134 , 3206911 ,1800 ,KIOSK , 7004567
NY ,54504 , 3506908 ,1000 ,KIOSK , 2000091
你可以看到 avg_income_in_city、square_feet_of_store_area 和 avg_revenue 是连续值,其中 city、store_type 等是分类类别(为了保持数据的简洁性,我没有在这里展示更多的类别)。
我希望对数据进行建模以预测收入。问题是如何使用sklearn“离散化”连续值?sklearn 是否提供任何“现成的”类/方法来离散连续值?(就像我们在 Orange 例如 Orange.Preprocessor_discretize(data, method=orange.EntropyDiscretization())
谢谢 !