我正在考虑为 HBase 编写查询语言。使用这种查询语言,用户将能够应用过滤器、跨行映射函数以及聚合/减少数据。(而且,它是一种特定于领域的查询语言。)想象一下数据集非常大,如果使用 HBase,情况通常如此。
我的问题是:我应该如何处理不同过滤、映射和聚合之间的中间数据。我应该将数据保存在文件系统上吗?这似乎有点浪费。我应该尝试编写函数并一口气完成所有事情吗?
我意识到这在一定程度上取决于我想要实现的目标以及我的查询语言会是什么样子。但是这个普遍的问题通常是如何处理的呢?您有什么建议或见解要分享吗?有没有很好的文章/资源可以解决这个问题?