4

我想使用 Pandas 实时处理系列。每一秒,我都需要将最新的观察结果添加到现有系列中。我的系列被分组到一个 DataFrame 中并存储在一个 HDF5 文件中。

这是我目前的做法:

>> existing_series = Series([7,13,97], [0,1,2]) 
>> updated_series = existing_series.append( Series([111], [3]) )

这是最有效的方法吗?我已经阅读了无数帖子,但找不到任何关注高频数据效率的帖子。

编辑:我刚刚阅读了关于搁置和泡菜的模块。似乎他们会实现我想要做的事情,基本上将列表保存在磁盘上。因为我的列表很大,有没有办法不将完整列表加载到内存中,而是一次有效地追加一个值?

4

1 回答 1

3

查看 0.10 中的新 PyTables 文档(即将推出),或者您可以从 master 获取。http://pandas.pydata.org/pandas-docs/dev/whatsnew.html

PyTables 实际上非常擅长追加,并且每秒写入 HDFStore 都可以。你想存储一个 DataFrame 表。然后,您可以以查询方式选择数据,例如

store.append('df', the_latest_df)
store.append('df', the_latest_df)
....
store.select('df', [ 'index>12:00:01' ])

如果这一切都来自同一个过程,那么这将非常有效。如果你有一个 writer 进程,然后另一个进程正在读取,这有点棘手(但会根据你正在做的事情正常工作)。

另一种选择是使用消息传递从一个进程到另一个进程(然后附加到内存中),这样可以避免序列化问题。

于 2012-12-10T00:21:51.583 回答