使用 SQL 数据库,可以很容易地执行统计/聚合函数,如协方差、标准差、峰度、偏度、偏差、均值和中位数、求和和乘积等,而无需将数据取出到应用程序服务器。 http://www.xarg.org/2012/07/statistical-functions-in-mysql/
对于大型数据集,一般 NoSql 数据库和特别是 dynamodb(cassandra) 上的此类计算如何有效地完成(尽可能靠近商店,假设 map/reduce “作业”不是实时的)。
AWS RDS(MySQL、PostgresSQL,...)不是 NoSQL,而 Amazon Redshift(ParAccel)——一个列存储——有一个 SQL 接口,可能有点过分了(6.85 美元/小时)。Redshift 的聚合功能有限(http://docs.aws.amazon.com/redshift/latest/dg/c_Aggregate_Functions.html、http://docs.aws.amazon.com/redshift/latest/dg/c_Window_functions.html)