python - 使用 numpy/scikit 函数保持 pandas 结构

Question

我正在使用read_csv()pandas 的出色功能，它提供：

In [31]: data = pandas.read_csv("lala.csv", delimiter=",")

In [32]: data
Out[32]: 
<class 'pandas.core.frame.DataFrame'>
Int64Index: 12083 entries, 0 to 12082
Columns: 569 entries, REGIONC to SCALEKER
dtypes: float64(51), int64(518)

但是当我应用 scikit-learn 中的函数时，我会丢失有关列的信息：

from sklearn import preprocessing
preprocessing.scale(data)

给出 numpy 数组。

有没有办法将 scikit 或 numpy 函数应用于 DataFrames 而不会丢失信息？

score 19 · Accepted Answer

This can be done by wrapping the returned data in a dataframe, with index and columns information in.

import pandas as pd
pd.DataFrame(preprocessing.scale(data), index = data.index, columns = data.columns)

score 9 · Accepted Answer

一种（有点天真）的方法是分别存储数据框的结构，即它的列和索引，然后从您的预处理结果创建一个新的数据框，如下所示：

In [15]: data = np.zeros((2,2))

In [16]: data
Out[16]: 
array([[ 0.,  0.],
       [ 0.,  0.]])

In [17]: from pandas import DataFrame

In [21]: df  = DataFrame(data, index = ['first', 'second'], columns=['c1','c2'])

In [22]: df
Out[22]: 
        c1  c2
first    0   0
second   0   0

In [26]: i = df.index

In [27]: c = df.columns

# generate new data as a numpy array    
In [29]: df  = DataFrame(np.random.rand(2,2), index=i, columns=c)

In [30]: df
Out[30]: 
              c1        c2
first   0.821354  0.936703
second  0.138376  0.482180

正如您在中看到的Out[22]，我们从一个数据框开始，然后在In[29]该框内放置一些新数据，行和列保持不变。我假设您的预处理将not打乱数据的行/列。

python - 使用 numpy/scikit 函数保持 pandas 结构

2 回答 2

Related

Reference