0

我是PipelineDB的新手,甚至还没有在运行时体验过它(安装待定......)。但我正在阅读文档,我完全感兴趣。

显然,PipelineDB 能够采用基于集合的查询表示并将它们机械地转换为增量表示,以有效地处理作为连续视图输出函数的存储受限的增量流。

是否还支持将基于集合的查询作为基于集合的查询运行以启动连续视图?在我看来,在创建连续视图时,初始数据将以传统方式计算。此外,由于连续视图可以被截断,它们是否可以被重新填充(从仍然可用的源表)而不拆除它必须允许删除/创建的任何依赖对象?

在我看来,这个特性在许多实际场景中都是至关重要的。一个简单的例子是偶尔刷新以重置舍入误差的漂移,例如分数平均值。

另一个例子是,如果 PipelineDB 本身发现并修复了导致数据错误的错误。软件打补丁后,基于仍然可用数据的查询应该重新运行。

完全基于没有永久存储的事件流的连续视图无法以这种方式重建。不确定是否只有部分连接源是短暂的。

我没有在文档中看到这些主题。你能解释一下这些是或不是问题吗?

谢谢!

4

1 回答 1

0

来自 PipelineDB 的 Jeff 在这里。

PipelineDB 技术文档的介绍部分介绍了您的问题的主要答案:

“PipelineDB 可以显着减少需要持久化到磁盘的信息量,因为只存储连续查询的输出。原始数据一旦被需要读取它的连续查询读取,就会被丢弃。”

虽然连续视图只存储连续查询的输出,但几乎每个使用 PipelineDB 的人都将原始数据存储在像 S3 这样便宜的地方。PipelineDB 旨在成为实时分析层,为实时报告应用程序和实时监控和警报系统等提供支持,几乎总是与其他系统一起用于数据基础设施。

如果您对 PipelineDB 感兴趣,您可能还想查看我们最近推出的名为Stride的新实时分析 API 产品。Stride API 为开发人员提供了连续 SQL 查询、集成存储、窗口查询和其他东西(如实时 webhook)的好处,所有这些都无需管理任何底层数据基础设施,所有这些都通过一个简单的 HTTP API 实现。

如果您有任何其他技术问题,您可以随时在我们的gitter聊天频道中找到我们的开源用户和开发团队。

于 2017-10-27T01:27:38.603 回答