问题标签 [pipelinedb]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
104 浏览

pipelinedb - 幂等流或使用 PipelineDB 防止重复行

我的应用程序生成包含多个应用程序指标的旋转日志文件。日志文件每分钟轮换一次,但每个文件还是比较大的(超过30MB,有100ks行)

我想将日志提供给 PipelineDB(在同一台机器上运行),Countiuous View 可以为我准确地创建我需要的指标聚合。

我可以使用标准输入的副本轻松地将日志发送到 PipelineDB,效果很好。

但是,在复制日志文件期间,机器可能偶尔会意外断电(例如,由于电力不足)。这意味着一旦重新上线,不确定有多少文件已插入 PipelineDB。

在这种情况下,如何确保日志中的每一行都只插入一次?(获得完整和准确的聚合非常重要)

请注意,日志文件中的每一行都有一个唯一标识符(由我的应用程序创建的序列号),但我在文档中找不到在流中定义唯一字段的选项。我假设 PipelineDB 的设计不是为了处理流行中的唯一字段

尽管如此,有没有其他解决方案可以解决这个问题?

0 投票
0 回答
57 浏览

pipelinedb - 如何在 pipelinedb 中将列添加到连续转换

在同一个模式中有很多连续的视图,两个连续的流和一个连续的变换。现在,我想在varhcar其中一个流和转换中添加一列。

将列添加到流是没有问题的,但是当删除连续变换时,创建变换是错误的。错误通知是流必须具有与转换相同的 shcema。为什么以及如何做到这一点?

0 投票
1 回答
516 浏览

postgresql - relcache 引用不属于资源所有者 TopTransaction

我在 pipelinedb(基于 postgresql 9.5.3)中创建了一个 continunue Trasformer,以捕获设备状态代码更改的数据。然后这个CONTINUOUS TRANSFORM会调用一个函数(触发器),在函数中,代码根据设备状态码的变化计算出设备状态变化的时间范围,并写入一个表格。函数中的操作包含选择/更新/插入。在运行过程中,发现数据库日志中有很多错误信息,但是这些错误似乎并没有影响代码的正常执行。但是,当我继续在数据库中收到此错误时,我仍然担心会发生的坏事。

8 月 12 日 03:38:44 tst-gp5-srv3 管道[19296]:[141958-1]错误:relcache 引用 ct_rtd_his_narrow_func_fs 不属于资源所有者 TopTransaction 8 月 12 日 03:38:44 tst-gp5-srv3 管道[19296] :[141958-2] 声明:ct_rtd_his_narrow_func_fs

0 投票
1 回答
106 浏览

django - Django 和 Pipelinedb:编程错误:列.location_id 不存在

我正在使用 Django 和 postgresdb 开发一个项目,其中流数据使用 pipelinedb 传入。同步脚本正在运行它。一切都是 Docker 化的。

数据在测试服务器上每 60 秒更新一次。

我将此字段添加到模型中:

作为参考,以下是 Weather 和 Location 模型:

当我启动服务器时,一切都很好。通过管理页面(Django 的默认管理页面),我可以导航到 weather_stats_mrel 页面以尝试查看传入的数据。

但是,一旦 Pipelindb 更新了表,当我尝试查看页面时就会出现此错误:

据我了解,Django 应该会自动添加这个字段,对吧?还是我现在需要手动添加此表?我会把它放在模型的什么地方?

我以前在使用 ForeignKeys 时从未遇到过这个问题,但话又说回来,这是我第一次使用在 Django 甚至触及它之前预先生成的表。

这个问题有解决方法吗?有没有人遇到过这个?

0 投票
0 回答
213 浏览

pipelinedb - Pipelinedb 在高负载下卡住,工作进程吃掉 100% 的 CPU 无所事事

注意:我正在寻找有关如何调试此问题的任何提示,不一定是此特定问题的直接答案。

我正在测量用于我们系统的 PipelineDB 的性能。我已经定义了一些连续的视图(计算总和,top-K 等),从单个流(大约 20 列,一些文本,主要是整数和布尔值)馈送。测试是用 Python 编写的,我使用 psycopg2 cursor.copy_from() 函数来实现最大性能。当连续视图指定的工作不太复杂时,PipelineDB 表现良好。但是,当我要求它计算许多 top-K 结果或许多 percentile_cont() 值时,测试挂起并出现以下症状:

  • (单个)“worker0”进程开始占用 100% CPU
  • 输入过程显示它正在运行COPY命令,从不切换到IDLE(正常工作时,它在COPY和IDLE之间切换)。
  • 测试挂起(即 copy_from() 函数调用不返回)

下面是“ps -ef”命令的输出,显示了大约一分钟或运行测试后的所有 pipelinedb 进程。请注意,worker0 进程自测试开始以来正在消耗 100% 的 CPU。它永远不会恢复正常工作('top' 表明它正在消耗 100% 的 CPU)

测试日志显示它在前约 1 秒内运行正常,插入了约 30,000 个事件(每批 100 个),然后它挂起,因为对 copy_from() 函数的调用没有返回。

当我减少 PipelineDB 的工作量时(通过删除一些连续视图),测试工作正常,每秒插入次数高达 20,000 次,持续至少一分钟。

我想指出,所有事件都具有相同的时间戳,并且所有视图都有一个“GROUP BY minute”子句,因此在测试期间应该在每个连续视图中创建/更新一行。

我已经使用了一些配置参数,特别是与内存缓冲区大小、同步方法、时间间隔、max_wait 等、工作人员数量相关的配置参数,但找不到任何可以避免该问题的组合。

我不知道我遇到的是 PipelineDB 问题还是 PostgreSQL 问题。当然,这不是预期的行为,在实际应用中是不能容忍的。欢迎任何提示、猜测、直觉等。

0 投票
1 回答
85 浏览

postgresql - 当我安装 pipelineDB 扩展时,postgreSQL 会发生什么?

我想比较 pipelineDB 和 PostgreSQL。

阅读文档,我发现 pipelineDB 是 PostgreSQL 的扩展。

然后我开始好奇:我与 PostgreSQL 有什么关系来比较 pipelineDB?

系统是否将 Postgres 视为 pipelineDB?

或者,是否有任何选项可以切换 Postgres 和 Pipeline 扩展?

0 投票
1 回答
277 浏览

postgresql - AWS Aurora 和 PipelineDB

想知道PiplelineDB扩展是否适用于与 AWS Aurora PostgreSQL 兼容的数据库。有谁知道路线图上是否有计划支持这一点?

0 投票
2 回答
1064 浏览

streaming - TimescaleDB 和 PipelineDB 集成

(我打算在 DBA SE 上发布这个,但没有时间刻度标签。)

我正在使用 TimescaleDB 存储每秒大约 500-1000 次插入的实时流,并且需要在数据一进来就将其传递给客户端应用程序。

我不一定要处理原始毫秒数据(我可能),但我肯定需要客户端接收此实时数据的 1、5、10、30 秒(等)聚合,因为每个时间桶/槽是准备好。因此,每秒、每 5 秒、每 10 秒等(值将是每个时间段的最大值、最小值等)。

我打算使用 Postgres 的触发器来聚合数据并以瀑布类型的方式将其放入新表中,并使用监听/通知来告诉客户端每个时间块何时“准备好”,但后来我遇到了 PipelineDB。

但是,我不清楚如何设置该架构。我是否希望 PipelineDB 获取初始数据流,然后将其传递给 Timescale 超表?我是否希望 Timescale 将数据传递给 Pipeline?我认为 Pipeline 将成为客户的联络点。

性能最高的通用架构是什么?以及如何在 Timescale 和 Pipeline 之间传递数据?

0 投票
0 回答
27 浏览

pipelinedb - PipelineDBarrival_timestamp 字段不出现

我将 PipelineDB 与 pgAdmin 一起使用,当我创建外部表时,“arrival_timestamp”字段不会出现。此外,当我创建连续视图时,会生成错误:unidentified sw parameter.

这是我安装 PipelineDB的指南。我执行段落命令“apt”和“Creating the PipelineDB Extension”。

这些是我写的查询:

在此处输入图像描述

0 投票
1 回答
52 浏览

sql - 从 pipelinedb 连接到 kafka 时如何提供 SASL/PLAIN 凭据?

我们想通过 PipelineDB 从 Kafka 摄取数据。我们的 Kafka 设置需要 SASL/PLAIN 身份验证。如何使用pipelinedb/ pipeline_kafkaPostgreSQL 扩展配置 SASL 用户和密码?