0

我正在使用从 Web 应用程序发送的包含 8000 万个事件的数据集来测试 CrateDB,它既可以作为规范化的关系解决方案,也可以作为非规范化的单一数据库解决方案。

我将所有 8000 万个非规范化事件导入到一个表中,并运行以下聚合查询:

select productName, SUM(elapsed)/60 as total_minutes from denormalized
where country_code = 'NL' AND eventType = 'mediaPlay' 
group by productName
order by total_minutes desc
limit 1000;

查询耗时 0.009 秒。哇扎!CrateDB 速度非常快!

然后我将会话范围的文档导入到一个名为“sessions”的表中,并将每个会话中的所有单个事件文档导入到另一个名为“events”的表中,并运行以下查询:

select e.productName, SUM(e.elapsed)/60 as total_minutes from sessions s
join events e ON e.sessionGroup = s.sessionGroup
where s.country_code = 'NL' AND e.eventType = 'mediaPlay' 
group by e.productName
order by total_minutes desc
limit 1000;

这花了 21 秒。

我的问题是,有没有办法获得更快的关系性能,可能是通过创建索引或以某种方式更改查询?

切线思想: 我们一直在使用 Elasticsearch 进行分析,显然对数据进行了非规范化,而且速度非常快,但 CrateDB 似乎提供了 Elasticsearch 所做的一切(对非规范化数据的快速查询、集群、动态模式、全文搜索),以及其他优势的:

  • 更好的 SQL 支持
  • 在小型数据集上部署关系解决方案的选项(在一个 DB 上标准化非常好,对于了解 SQL 的开发人员来说,没有上下文切换或加速)。
4

1 回答 1

0

您使用的是什么 CrateDB 版本?如果它是 < 3.0,那么升级可能会大大提高连接查询,请参阅https://crate.io/a/lab-notes-how-we-made-joins-23-thousand-times-faster-part-三/ .

于 2018-09-03T08:39:24.143 回答