2

我有一个 .csv 文件,其中包含以下格式的一些数据:

1.69511909,  0.57561167,  0.31437427,  0.35458831,  0.15841189, 0.28239582, -0.18180907,  1.34761404, -1.5059083,  1.29246638
-1.66764664,  0.1488095,  1.03832221, -0.35229205,  1.35705861, -1.56747104, -0.36783851, -0.57636948,  0.9854391,  1.63031066
0.87763775,  0.60757153,  0.64908314, -0.68357724,  0.33499838, -0.08557089,  1.71855596, -0.61235066, -0.32520105,  1.54162629

每一行对应特定的一天,一行中的每条记录对应于当天的特定小时。

是否有一种方便的方法来导入数据,read_csv以便正确索引所有内容,即导入功能将区分不同的日期(行)和天内的小时(行中的单独记录)。

4

2 回答 2

2

像这样的东西。请注意,由于某种原因,我无法复制您的字符串,所以我的数据集被截断了......

读入字符串(它读作数据框,因为我的中有换行符)....但需要强制转换为系列。

In [23]: s = pd.read_csv(StringIO(data)).values

In [24]: s
Out[24]: 
array([[-1.66764664,  0.1488095 ,  1.03832221, -0.35229205,  1.35705861,
        -1.56747104, -0.36783851, -0.57636948,  0.9854391 ,  1.63031066],
       [ 0.87763775,  0.60757153,  0.64908314, -0.68357724,  0.33499838,
        -0.08557089,  1.71855596,         nan,         nan,         nan]])

In [25]: s = Series(pd.read_csv(StringIO(data)).values.ravel())

In [26]: s
Out[26]: 
0    -1.667647
1     0.148810
2     1.038322
3    -0.352292
4     1.357059
5    -1.567471
6    -0.367839
7    -0.576369
8     0.985439
9     1.630311
10    0.877638
11    0.607572
12    0.649083
13   -0.683577
14    0.334998
15   -0.085571
16    1.718556
17         NaN
18         NaN
19         NaN
dtype: float64

只需直接设置索引....请注意,您全权负责对齐,这很容易被 1 说掉

In [27]: s.index = pd.date_range('20130101',freq='H',periods=len(s))

In [28]: s
Out[28]: 
2013-01-01 00:00:00   -1.667647
2013-01-01 01:00:00    0.148810
2013-01-01 02:00:00    1.038322
2013-01-01 03:00:00   -0.352292
2013-01-01 04:00:00    1.357059
2013-01-01 05:00:00   -1.567471
2013-01-01 06:00:00   -0.367839
2013-01-01 07:00:00   -0.576369
2013-01-01 08:00:00    0.985439
2013-01-01 09:00:00    1.630311
2013-01-01 10:00:00    0.877638
2013-01-01 11:00:00    0.607572
2013-01-01 12:00:00    0.649083
2013-01-01 13:00:00   -0.683577
2013-01-01 14:00:00    0.334998
2013-01-01 15:00:00   -0.085571
2013-01-01 16:00:00    1.718556
2013-01-01 17:00:00         NaN
2013-01-01 18:00:00         NaN
2013-01-01 19:00:00         NaN
Freq: H, dtype: float64
于 2013-06-07T16:33:58.150 回答
1

首先读入DataFrame:

df = pd.read_csv(file_name, sep=',\s+', header=None)

然后将索引设置为日期,将列设置为小时*

df.index = pd.date_range('2012-01-01', freq='D', periods=len(df))
from pandas.tseries.offsets import Hour
df.columns = [Hour(7+t) for t in df.columns]

In [5]: df
Out[5]:
            <7 Hours>  <8 Hours>  <9 Hours>  <10 Hours>  <11 Hours>   <12 Hours>  <13 Hours>  <14 Hours>  <15 Hours>  <16 Hours>
2012-01-01   1.695119   0.575612   0.314374    0.354588    0.158412   0.282396   -0.181809    1.347614   -1.505908    1.292466
2012-01-02  -1.667647   0.148810   1.038322   -0.352292    1.357059  -1.567471   -0.367839   -0.576369    0.985439    1.630311
2012-01-03   0.877638   0.607572   0.649083   -0.683577    0.334998  -0.085571    1.718556   -0.612351   -0.325201    1.541626

然后将其堆叠并添加 MultiIndex 的 Date 和 Hour 级别:

s = df.stack()
s.index = [x[0]+x[1] for x in s.index]

In [8]: s
Out[8]:
2012-01-01 07:00:00    1.695119
2012-01-01 08:00:00    0.575612
2012-01-01 09:00:00    0.314374
2012-01-01 10:00:00    0.354588
2012-01-01 11:00:00    0.158412
2012-01-01 12:00:00    0.282396
2012-01-01 13:00:00   -0.181809
2012-01-01 14:00:00    1.347614
2012-01-01 15:00:00   -1.505908
2012-01-01 16:00:00    1.292466
2012-01-02 07:00:00   -1.667647
2012-01-02 08:00:00    0.148810
...

*您可以使用不同的偏移量,请参见此处,例如MinuteSecond

于 2013-06-07T16:37:46.120 回答