我正在从Bloomberg 下载价格数据,并希望以最快且内存占用最少的方式构建一个DataFrame。假设我通过 python 向彭博社提交了一个数据请求,以获取从 2000 年 1 月 1 日到 2013 年 1 月 1 日所有当前 S&P 500 股票的价格数据。数据由ticker 返回,然后是日期和值,一次一个。我目前的方法是为要存储的日期创建一个列表,为要存储的价格创建另一个列表,并在从 Bloomberg 数据请求响应中读取每个列表时附加一个日期和价格。然后,当读取特定代码的所有日期和价格时,我使用为代码创建一个 DataFrame
ticker_df = pd.DataFrame(price_list, index = dates_list, columns= [ticker], dtype=float)
我为每个股票代码执行此操作,在读取每个股票代码的数据后将每个股票数据帧附加到列表 << df_list.append(ticker_df) >> 。当所有的股票数据帧都制作完成后,我将所有单独的数据帧合并到一个数据帧中:
lg_index = []
for num in range(len(df_list)):
if len(lg_index) < len(df_list[num].index):
lg_index = df_list[num].index # Use the largest index for creating the result_df
result_df = pd.DataFrame(index= lg_index)
for num in range(len(df_list)):
result_df[df_list[num].columns[0]] = df_list[num]
我这样做的原因是因为每个股票代码的指数都不相同(如果股票仅在去年首次公开募股,等等)
我猜一定有更好的方法来完成我在这里做的事情,使用更少的内存和更快的方式,我只是想不出。谢谢!