postgresql - 使用 Blaze/Pandas 高效存储 UNICODE 文本

Question

我有大约 500 万行（并且还在增长）的 twitter 提要，我想有效地存储它们，以便使用 Pandas（最好是Blaze）进行更快的读/写访问。从一条推文的巨大元数据中，我只是存储[username, tweet time, tweet & tweet ID]. 所以不多。此外，所有推文都经过unicode编码。现在存储这些数据的最佳方式是什么？我目前将它们存储在一堆 CSV 中，但随着数据的增长，我认为它不是一个可行的解决方案，因此计划转移到数据库。我首先想到了 HDF5，但它仍然存在存储 unicoded 列的问题（即使在 Python 3 中）。

由于 Blaze 对数据库有很好的支持（我认为对分析也很有用），我是否知道什么是解决我的问题的好的架构解决方案（如果可能的话，在生产级别）？由于我的数据也是结构化的，我觉得不需要 NoSQL 解决方案，但愿意接受建议。

目前，这 5 MM 行只占用大约 1 GB 的空间，我认为它不会超过几十 GB。那么，使用Postgres, 是最好的主意吗？

谢谢

score 1 · Accepted Answer

是的，PostgresSQL对于您的 10 年代 GB 应用程序来说，这是一个完美的选择。我很容易使用sqlalchemy驱动psycopg2程序，psql命令行工具很好。

PostgresSQL 有一个令人难以置信的命令行界面，pgcli它为表名和列名提供制表符补全。我强烈推荐它，仅仅这个工具就足以推动你使用 PostgresSQL。

postgresql - 使用 Blaze/Pandas 高效存储 UNICODE 文本

1 回答 1

Related

Reference