我即将开始处理大小约为 500 GB 的数据。我希望能够在任何给定时间使用 Python 访问数据的小部分。我正在考虑将 PyTables 或 MongoDB 与 PyMongo(或 Hadoop - 感谢Drahkar)一起使用。我应该考虑其他文件结构/数据库吗?
我将要做的一些操作是计算从一个点到另一个点的距离。根据布尔测试等的索引提取数据。结果可能会在线上用于网站,但目前它仅用于桌面进行分析。
干杯
如果您正在认真研究大数据流程的数据处理,我强烈建议您研究 Hadoop。Cloudera ( http://www.cloudera.com/ ) 是一个提供商。它是一个非常强大的平台,其中包含许多用于数据处理的工具。包括 Python 在内的许多语言都有用于访问数据的模块,而且一旦您为它构建了各种 mapreduce、Hive 和 hbase 作业,hadoop 集群就可以为您完成大量的处理工作。