725

我从这里的熊猫 DataFrame 文档开始:http: //pandas.pydata.org/pandas-docs/stable/dsintro.html

我想用时间序列计算中的值迭代地填充 DataFrame。所以基本上,我想用列 A、B 和时间戳行来初始化 DataFrame,全为 0 或全为 NaN。

然后我会添加初始值并检查这些数据,从之前的行计算新行,比如说row[A][t] = row[A][t-1]+1左右。

我目前正在使用下面的代码,但我觉得它有点难看,必须有一种方法可以直接使用 DataFrame 来做到这一点,或者一般来说只是一种更好的方法。注意:我使用的是 Python 2.7。

import datetime as dt
import pandas as pd
import scipy as s

if __name__ == '__main__':
    base = dt.datetime.today().date()
    dates = [ base - dt.timedelta(days=x) for x in range(0,10) ]
    dates.sort()

    valdict = {}
    symbols = ['A','B', 'C']
    for symb in symbols:
        valdict[symb] = pd.Series( s.zeros( len(dates)), dates )

    for thedate in dates:
        if thedate > dates[0]:
            for symb in valdict:
                valdict[symb][thedate] = 1+valdict[symb][thedate - dt.timedelta(days=1)]

    print valdict
4

7 回答 7

685

永远不要增长 DataFrame!

TLDR;(只需阅读粗体字)

这里的大多数答案都会告诉你如何创建一个空的 DataFrame 并填写它,但没有人会告诉你这是一件坏事。

这是我的建议:在列表中累积数据,而不是 DataFrame。

使用列表收集数据,然后在准备好时初始化 DataFrame。list-of-lists 或 list-of-dicts 格式都可以使用,pd.DataFrame两者都接受。

data = []
for a, b, c in some_function_that_yields_data():
    data.append([a, b, c])

df = pd.DataFrame(data, columns=['A', 'B', 'C'])

这种方法的优点:

  1. 一次性追加到列表并创建一个 DataFrame 总是比创建一个空的 DataFrame(或 NaN 之一)并一遍又一遍地追加到它更便宜。

  2. 列表还占用更少的内存,并且是一种更轻的数据结构,可以使用、追加和删除(如果需要)。

  3. dtypes被自动推断(而不是分配object给所有这些)。

  4. ARangeIndex会自动为您的数据创建,而您不必小心为每次迭代时附加的行分配正确的索引。

如果您还不相信,文档中也提到了这一点:

迭代地将行附加到 DataFrame 可能比单个连接的计算密集度更高。更好的解决方案是将这些行附加到列表中,然后将列表与原始 DataFrame 一次性连接起来。

但是,如果我的函数返回需要合并成一个大数据帧的较小数据帧怎么办?

没关系,您仍然可以通过增长或创建较小 DataFrame 的 python 列表,然后调用pd.concat.

small_dfs = []
for small_df in some_function_that_yields_dataframes():
    small_dfs.append(small_df)

large_df = pd.concat(small_dfs, ignore_index=True)

或者,更简洁地说:

large_df = pd.concat(
    list(some_function_that_yields_dataframes()), ignore_index=True)


这些选项太可怕了

appendconcat在循环内

这是我从初学者那里看到的最大错误:

df = pd.DataFrame(columns=['A', 'B', 'C'])
for a, b, c in some_function_that_yields_data():
    df = df.append({'A': i, 'B': b, 'C': c}, ignore_index=True) # yuck
    # or similarly,
    # df = pd.concat([df, pd.Series({'A': i, 'B': b, 'C': c})], ignore_index=True)

append为您拥有的每个或concat操作重新分配内存。将此与循环结合起来,您就有了二次复杂度运算

与此相关的另一个错误df.append是用户倾向于忘记append 不是就地函数,因此必须将结果分配回。您还必须担心 dtypes:

df = pd.DataFrame(columns=['A', 'B', 'C'])
df = df.append({'A': 1, 'B': 12.3, 'C': 'xyz'}, ignore_index=True)

df.dtypes
A     object   # yuck!
B    float64
C     object
dtype: object

处理对象列从来都不是一件好事,因为 pandas 无法对这些列进行矢量化操作。你需要这样做来修复它:

df.infer_objects().dtypes
A      int64
B    float64
C     object
dtype: object

loc在一个循环内

我还看到loc用于附加到创建为空的 DataFrame:

df = pd.DataFrame(columns=['A', 'B', 'C'])
for a, b, c in some_function_that_yields_data():
    df.loc[len(df)] = [a, b, c]

和以前一样,您没有预先分配每次所需的内存量,因此每次创建新行时内存都会重新增长。它和 一样糟糕append,甚至更丑陋。

NaN 的空 DataFrame

然后,创建一个 NaN 的 DataFrame,以及与之相关的所有注意事项。

df = pd.DataFrame(columns=['A', 'B', 'C'], index=range(5))
df
     A    B    C
0  NaN  NaN  NaN
1  NaN  NaN  NaN
2  NaN  NaN  NaN
3  NaN  NaN  NaN
4  NaN  NaN  NaN

它创建一个对象列的 DataFrame,就像其他列一样。

df.dtypes
A    object  # you DON'T want this
B    object
C    object
dtype: object

附加仍然具有上述方法的所有问题。

for i, (a, b, c) in enumerate(some_function_that_yields_data()):
    df.iloc[i] = [a, b, c]


证据就在布丁里

对这些方法进行计时是查看它们在内存和效用方面有多大差异的最快方法。

在此处输入图像描述

基准代码供参考。

于 2019-06-25T02:51:37.393 回答
410

这里有几个建议:

用于date_range索引:

import datetime
import pandas as pd
import numpy as np

todays_date = datetime.datetime.now().date()
index = pd.date_range(todays_date-datetime.timedelta(10), periods=10, freq='D')

columns = ['A','B', 'C']

注意:我们可以简单地通过编写来创建一个空的 DataFrame(带NaNs):

df_ = pd.DataFrame(index=index, columns=columns)
df_ = df_.fillna(0) # with 0s rather than NaNs

要对数据进行这些类型的计算,请使用 numpy 数组:

data = np.array([np.arange(10)]*3).T

因此我们可以创建 DataFrame:

In [10]: df = pd.DataFrame(data, index=index, columns=columns)

In [11]: df
Out[11]: 
            A  B  C
2012-11-29  0  0  0
2012-11-30  1  1  1
2012-12-01  2  2  2
2012-12-02  3  3  3
2012-12-03  4  4  4
2012-12-04  5  5  5
2012-12-05  6  6  6
2012-12-06  7  7  7
2012-12-07  8  8  8
2012-12-08  9  9  9
于 2012-12-09T09:40:46.303 回答
218

如果您只是想创建一个空数据框并稍后用一些传入的数据框填充它,请尝试以下操作:

newDF = pd.DataFrame() #creates a new dataframe that's empty
newDF = newDF.append(oldDF, ignore_index = True) # ignoring index is optional
# try printing some data from newDF
print newDF.head() #again optional 

在这个例子中,我使用这个 pandas 文档来创建一个新的数据框,然后使用append将 oldDF 中的数据写入 newDF。

如果我必须不断将来自多个 oldDF 的新数据附加到这个 newDF 中,我只需使用 for 循环来迭代 pandas.DataFrame.append()

于 2017-01-08T04:18:18.757 回答
157

用列名初始化空框架

import pandas as pd

col_names =  ['A', 'B', 'C']
my_df  = pd.DataFrame(columns = col_names)
my_df

将新记录添加到框架

my_df.loc[len(my_df)] = [2, 4, 5]

您可能还想传递字典:

my_dic = {'A':2, 'B':4, 'C':5}
my_df.loc[len(my_df)] = my_dic 

将另一个框架附加到现有框架

col_names =  ['A', 'B', 'C']
my_df2  = pd.DataFrame(columns = col_names)
my_df = my_df.append(my_df2)

性能注意事项

如果要在循环中添加行,请考虑性能问题。对于前 1000 条记录,“my_df.loc”性能更好,但随着循环中记录数量的增加,它会逐渐变慢。

如果您打算在一个大循环内进行精简(比如 10M‌ 记录左右),最好将这两者混合使用;用 iloc 填充数据框,直到大小达到 1000 左右,然后将其附加到原始数据框,并清空临时数据框。这将使您的性能提高大约 10 倍。

于 2018-04-23T05:29:03.840 回答
1

简单地:

import numpy as np
import pandas as pd

df=pd.DataFrame(np.zeros([rows,columns])

然后填充它。

于 2021-10-19T16:59:51.653 回答
0

假设有 19 行的数据框

index=range(0,19)
index

columns=['A']
test = pd.DataFrame(index=index, columns=columns)

保持 A 列不变

test['A']=10

将 b 列保持为循环给出的变量

for x in range(0,19):
    test.loc[[x], 'b'] = pd.Series([x], index = [x])

您可以将第一个 x 替换为pd.Series([x], index = [x])任何值

于 2018-08-29T11:06:28.697 回答
0

这是我用循环从多个列表制作动态数据框的方法

x = [1,2,3,4,5,6,7,8]
y = [22,12,34,22,65,24,12,11]
z = ['as','ss','wa', 'ss','er','fd','ga','mf']
names = ['Bob', 'Liz', 'chop']

一个循环

def dataF(x,y,z,names):
    res = []

    for t in zip(x,y,z):
        res.append(t)

    return pd.DataFrame(res,columns=names)

结果

dataF(x,y,z,names)

在此处输入图像描述

于 2021-05-24T14:30:46.207 回答