5

使用 Presto 需要多少数据?该网站声明它可以查询从千兆字节到千兆字节的数据大小。我了解它是如何用于查询非常大的数据集的,但是有人使用它来处理数百 GB 的数据吗?

4

2 回答 2

6

目前,如果您已经安装了现有的 Hive,则 Presto 最有用。如果您使用 Hive,则绝对应该尝试 Presto。如果您的所有数据都适合单个机器上的 PostgreSQL 或 MySQL 等关系数据库,并且您对性能感到满意,那么请继续使用它。

但是,Presto 应该比单台机器上的任何一个数据库都快得多,因为它并行执行查询。这些数据库都没有并行执行单个查询。目前,使用 Presto 需要设置 HDFS 和 Hive(即使在单台机器上),因此与已经安装现有 Hive 相比,开始使用会更加困难。

于 2013-11-06T21:12:17.077 回答
0

或者,您可以查看Impala - 它已作为生产就绪软件提供了六个月。与 Presto 一样,Impala 是一个分布式 SQL 查询引擎,用于绕过 MapReduce 的 HDFS 中的数据。与 Presto 不同的是,有一个商业供应商提供支持 (Cloudera)。

也就是说,大卫关于数据大小的评论仍然适用。为工作使用正确的工具。

于 2013-11-06T22:25:34.617 回答