我有一个具有已知级别的分类变量(例如hour
,它只包含 0 到 23 之间的值),但目前并非所有这些变量都可用(例如,我们有 0 到 11 点之间的测量值,而小时从 12 到 23不包括在内),尽管稍后将添加其他值。如果我们天真地使用pandas.get_dummies()
将值映射到指示变量,我们最终将只有 12 个而不是 24 个。有没有办法将分类变量的值映射到预定义的虚拟变量列表?
这是预期行为的示例:
possible_values = range(24)
hours = get_dummies_on_steroids(df['hour'], prefix='hour', levels=possible_values)