“pipelinedb”的相关标签问题

0 投票

1 回答

104 浏览

pipelinedb - 幂等流或使用 PipelineDB 防止重复行

我的应用程序生成包含多个应用程序指标的旋转日志文件。日志文件每分钟轮换一次，但每个文件还是比较大的（超过30MB，有100ks行）

我想将日志提供给 PipelineDB（在同一台机器上运行），Countiuous View 可以为我准确地创建我需要的指标聚合。

我可以使用标准输入的副本轻松地将日志发送到 PipelineDB，效果很好。

但是，在复制日志文件期间，机器可能偶尔会意外断电（例如，由于电力不足）。这意味着一旦重新上线，不确定有多少文件已插入 PipelineDB。

在这种情况下，如何确保日志中的每一行都只插入一次？（获得完整和准确的聚合非常重要）

请注意，日志文件中的每一行都有一个唯一标识符（由我的应用程序创建的序列号），但我在文档中找不到在流中定义唯一字段的选项。我假设 PipelineDB 的设计不是为了处理流行中的唯一字段

尽管如此，有没有其他解决方案可以解决这个问题？

pipelinedb

0 投票

0 回答

57 浏览

pipelinedb - 如何在 pipelinedb 中将列添加到连续转换

在同一个模式中有很多连续的视图，两个连续的流和一个连续的变换。现在，我想在varhcar其中一个流和转换中添加一列。

将列添加到流是没有问题的，但是当删除连续变换时，创建变换是错误的。错误通知是流必须具有与转换相同的 shcema。为什么以及如何做到这一点？

pipelinedb

0 投票

1 回答

516 浏览

postgresql - relcache 引用不属于资源所有者 TopTransaction

我在 pipelinedb（基于 postgresql 9.5.3）中创建了一个 continunue Trasformer，以捕获设备状态代码更改的数据。然后这个CONTINUOUS TRANSFORM会调用一个函数（触发器），在函数中，代码根据设备状态码的变化计算出设备状态变化的时间范围，并写入一个表格。函数中的操作包含选择/更新/插入。在运行过程中，发现数据库日志中有很多错误信息，但是这些错误似乎并没有影响代码的正常执行。但是，当我继续在数据库中收到此错误时，我仍然担心会发生的坏事。

8 月 12 日 03:38:44 tst-gp5-srv3 管道[19296]：[141958-1]错误：relcache 引用 ct_rtd_his_narrow_func_fs 不属于资源所有者 TopTransaction 8 月 12 日 03:38:44 tst-gp5-srv3 管道[19296] ：[141958-2] 声明：ct_rtd_his_narrow_func_fs

postgresql pipelinedb

0 投票

1 回答

106 浏览

django - Django 和 Pipelinedb：编程错误：列.location_id 不存在

我正在使用 Django 和 postgresdb 开发一个项目，其中流数据使用 pipelinedb 传入。同步脚本正在运行它。一切都是 Docker 化的。

数据在测试服务器上每 60 秒更新一次。

我将此字段添加到模型中：

作为参考，以下是 Weather 和 Location 模型：

当我启动服务器时，一切都很好。通过管理页面（Django 的默认管理页面），我可以导航到 weather_stats_mrel 页面以尝试查看传入的数据。

但是，一旦 Pipelindb 更新了表，当我尝试查看页面时就会出现此错误：

据我了解，Django 应该会自动添加这个字段，对吧？还是我现在需要手动添加此表？我会把它放在模型的什么地方？

我以前在使用 ForeignKeys 时从未遇到过这个问题，但话又说回来，这是我第一次使用在 Django 甚至触及它之前预先生成的表。

这个问题有解决方法吗？有没有人遇到过这个？

django postgresql pipelinedb

0 投票

0 回答

213 浏览

pipelinedb - Pipelinedb 在高负载下卡住，工作进程吃掉 100% 的 CPU 无所事事

注意：我正在寻找有关如何调试此问题的任何提示，不一定是此特定问题的直接答案。

我正在测量用于我们系统的 PipelineDB 的性能。我已经定义了一些连续的视图（计算总和，top-K 等），从单个流（大约 20 列，一些文本，主要是整数和布尔值）馈送。测试是用 Python 编写的，我使用 psycopg2 cursor.copy_from() 函数来实现最大性能。当连续视图指定的工作不太复杂时，PipelineDB 表现良好。但是，当我要求它计算许多 top-K 结果或许多 percentile_cont() 值时，测试挂起并出现以下症状：

（单个）“worker0”进程开始占用 100% CPU
输入过程显示它正在运行COPY命令，从不切换到IDLE（正常工作时，它在COPY和IDLE之间切换）。
测试挂起（即 copy_from() 函数调用不返回）

下面是“ps -ef”命令的输出，显示了大约一分钟或运行测试后的所有 pipelinedb 进程。请注意，worker0 进程自测试开始以来正在消耗 100% 的 CPU。它永远不会恢复正常工作（'top' 表明它正在消耗 100% 的 CPU）

测试日志显示它在前约 1 秒内运行正常，插入了约 30,000 个事件（每批 100 个），然后它挂起，因为对 copy_from() 函数的调用没有返回。

当我减少 PipelineDB 的工作量时（通过删除一些连续视图），测试工作正常，每秒插入次数高达 20,000 次，持续至少一分钟。

我想指出，所有事件都具有相同的时间戳，并且所有视图都有一个“GROUP BY minute”子句，因此在测试期间应该在每个连续视图中创建/更新一行。

我已经使用了一些配置参数，特别是与内存缓冲区大小、同步方法、时间间隔、max_wait 等、工作人员数量相关的配置参数，但找不到任何可以避免该问题的组合。

我不知道我遇到的是 PipelineDB 问题还是 PostgreSQL 问题。当然，这不是预期的行为，在实际应用中是不能容忍的。欢迎任何提示、猜测、直觉等。

pipelinedb

0 投票

1 回答

85 浏览

postgresql - 当我安装 pipelineDB 扩展时，postgreSQL 会发生什么？

我想比较 pipelineDB 和 PostgreSQL。

阅读文档，我发现 pipelineDB 是 PostgreSQL 的扩展。

然后我开始好奇：我与 PostgreSQL 有什么关系来比较 pipelineDB？

系统是否将 Postgres 视为 pipelineDB？

或者，是否有任何选项可以切换 Postgres 和 Pipeline 扩展？

postgresql pipelinedb

0 投票

1 回答

277 浏览

postgresql - AWS Aurora 和 PipelineDB

想知道PiplelineDB扩展是否适用于与 AWS Aurora PostgreSQL 兼容的数据库。有谁知道路线图上是否有计划支持这一点？

postgresql amazon-aurora pipelinedb

0 投票

2 回答

1064 浏览

streaming - TimescaleDB 和 PipelineDB 集成

（我打算在 DBA SE 上发布这个，但没有时间刻度标签。）

我正在使用 TimescaleDB 存储每秒大约 500-1000 次插入的实时流，并且需要在数据一进来就将其传递给客户端应用程序。

我不一定要处理原始毫秒数据（我可能），但我肯定需要客户端接收此实时数据的 1、5、10、30 秒（等）聚合，因为每个时间桶/槽是准备好。因此，每秒、每 5 秒、每 10 秒等（值将是每个时间段的最大值、最小值等）。

我打算使用 Postgres 的触发器来聚合数据并以瀑布类型的方式将其放入新表中，并使用监听/通知来告诉客户端每个时间块何时“准备好”，但后来我遇到了 PipelineDB。

但是，我不清楚如何设置该架构。我是否希望 PipelineDB 获取初始数据流，然后将其传递给 Timescale 超表？我是否希望 Timescale 将数据传递给 Pipeline？我认为 Pipeline 将成为客户的联络点。

性能最高的通用架构是什么？以及如何在 Timescale 和 Pipeline 之间传递数据？

streaming aggregation real-time-data pipelinedb timescaledb

0 投票

0 回答

27 浏览

pipelinedb - PipelineDBarrival_timestamp 字段不出现

我将 PipelineDB 与 pgAdmin 一起使用，当我创建外部表时，“arrival_timestamp”字段不会出现。此外，当我创建连续视图时，会生成错误：unidentified sw parameter.

这是我安装 PipelineDB的指南。我执行段落命令“apt”和“Creating the PipelineDB Extension”。

这些是我写的查询：

pipelinedb

0 投票

1 回答

52 浏览

sql - 从 pipelinedb 连接到 kafka 时如何提供 SASL/PLAIN 凭据？

我们想通过 PipelineDB 从 Kafka 摄取数据。我们的 Kafka 设置需要 SASL/PLAIN 身份验证。如何使用pipelinedb/ pipeline_kafkaPostgreSQL 扩展配置 SASL 用户和密码？

sql postgresql pipelinedb

问题标签 [pipelinedb]

Reference