elasticsearch - 有没有办法优化这个 CrateDB 关系查询？

Question

我正在使用从 Web 应用程序发送的包含 8000 万个事件的数据集来测试 CrateDB，它既可以作为规范化的关系解决方案，也可以作为非规范化的单一数据库解决方案。

我将所有 8000 万个非规范化事件导入到一个表中，并运行以下聚合查询：

select productName, SUM(elapsed)/60 as total_minutes from denormalized
where country_code = 'NL' AND eventType = 'mediaPlay' 
group by productName
order by total_minutes desc
limit 1000;

查询耗时 0.009 秒。哇扎！CrateDB 速度非常快！

然后我将会话范围的文档导入到一个名为“sessions”的表中，并将每个会话中的所有单个事件文档导入到另一个名为“events”的表中，并运行以下查询：

select e.productName, SUM(e.elapsed)/60 as total_minutes from sessions s
join events e ON e.sessionGroup = s.sessionGroup
where s.country_code = 'NL' AND e.eventType = 'mediaPlay' 
group by e.productName
order by total_minutes desc
limit 1000;

这花了 21 秒。

我的问题是，有没有办法获得更快的关系性能，可能是通过创建索引或以某种方式更改查询？

切线思想： 我们一直在使用 Elasticsearch 进行分析，显然对数据进行了非规范化，而且速度非常快，但 CrateDB 似乎提供了 Elasticsearch 所做的一切（对非规范化数据的快速查询、集群、动态模式、全文搜索），以及其他优势的：

更好的 SQL 支持
在小型数据集上部署关系解决方案的选项（在一个 DB 上标准化非常好，对于了解 SQL 的开发人员来说，没有上下文切换或加速）。

score 0 · Accepted Answer

您使用的是什么 CrateDB 版本？如果它是 < 3.0，那么升级可能会大大提高连接查询，请参阅https://crate.io/a/lab-notes-how-we-made-joins-23-thousand-times-faster-part-三/ .

elasticsearch - 有没有办法优化这个 CrateDB 关系查询？

1 回答 1

Related

Reference