我有大约 500 万行(并且还在增长)的 twitter 提要,我想有效地存储它们,以便使用 Pandas(最好是Blaze)进行更快的读/写访问。从一条推文的巨大元数据中,我只是存储[username, tweet time, tweet & tweet ID]
. 所以不多。此外,所有推文都经过unicode
编码。现在存储这些数据的最佳方式是什么?我目前将它们存储在一堆 CSV 中,但随着数据的增长,我认为它不是一个可行的解决方案,因此计划转移到数据库。我首先想到了 HDF5,但它仍然存在存储 unicoded 列的问题(即使在 Python 3 中)。
由于 Blaze 对数据库有很好的支持(我认为对分析也很有用),我是否知道什么是解决我的问题的好的架构解决方案(如果可能的话,在生产级别)?由于我的数据也是结构化的,我觉得不需要 NoSQL 解决方案,但愿意接受建议。
目前,这 5 MM 行只占用大约 1 GB 的空间,我认为它不会超过几十 GB。那么,使用Postgres
, 是最好的主意吗?
谢谢