如果记忆对我有用,在 R 中有一种称为因子的数据类型,当在 DataFrame 中使用时,它可以自动解压缩到回归设计矩阵的必要列中。例如,包含 True/False/Maybe 值的因子将转换为:
1 0 0
0 1 0
or
0 0 1
用于使用较低级别的回归代码。有没有办法使用熊猫库来实现类似的东西?我看到 Pandas 中有一些回归支持,但是由于我有自己的自定义回归例程,所以我对从异构数据构建设计矩阵(二维 numpy 数组或矩阵)非常感兴趣,并支持在numpy 对象的列和派生它的 Pandas DataFrame。
更新:这是一个数据矩阵的示例,其中包含我正在考虑的那种异构数据(示例来自 Pandas 手册):
>>> df2 = DataFrame({'a' : ['one', 'one', 'two', 'three', 'two', 'one', 'six'],'b' : ['x', 'y', 'y', 'x', 'y', 'x', 'x'],'c' : np.random.randn(7)})
>>> df2
a b c
0 one x 0.000343
1 one y -0.055651
2 two y 0.249194
3 three x -1.486462
4 two y -0.406930
5 one x -0.223973
6 six x -0.189001
>>>
'a' 列应转换为 4 个浮点列(尽管有这个含义,但只有四个唯一原子),'b' 列可以转换为单个浮点列,而 'c' 列应是设计矩阵中未修改的最后一列。
谢谢,
SetJmp