0

我有大约 500 万行(并且还在增长)的 twitter 提要,我想有效地存储它们,以便使用 Pandas(最好是Blaze)进行更快的读/写访问。从一条推文的巨大元数据中,我只是存储[username, tweet time, tweet & tweet ID]. 所以不多。此外,所有推文都经过unicode编码。现在存储这些数据的最佳方式是什么?我目前将它们存储在一堆 CSV 中,但随着数据的增长,我认为它不是一个可行的解决方案,因此计划转移到数据库。我首先想到了 HDF5,但它仍然存在存储 unicoded 列的问题(即使在 Python 3 中)。

由于 Blaze 对数据库有很好的支持(我认为对分析也很有用),我是否知道什么是解决我的问题的好的架构解决方案(如果可能的话,在生产级别)?由于我的数据也是结构化的,我觉得不需要 NoSQL 解决方案,但愿意接受建议。

目前,这 5 MM 行只占用大约 1 GB 的空间,我认为它不会超过几十 GB。那么,使用Postgres, 是最好的主意吗?

谢谢

4

1 回答 1

1

是的,PostgresSQL对于您的 10 年代 GB 应用程序来说,这是一个完美的选择。我很容易使用sqlalchemy驱动psycopg2程序,psql命令行工具很好。

PostgresSQL 有一个令人难以置信的命令行界面,pgcli它为表名和列名提供制表符补全。我强烈推荐它,仅仅这个工具就足以推动你使用 PostgresSQL。

于 2016-01-23T01:04:13.843 回答