问题标签 [flink-cep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
231 浏览

apache-flink - Flink S3 Hadoop 2.8.0

我们试图将 S3 用于 Flink 后端状态和检查点,并在法兰克福使用了一个存储桶(V4 身份验证)它给出了我在此处发布的错误(无法使用 Hadoop 访问 S3 存储桶),这是由于 hadoop。然而 hadoop 2.8.0 可以工作,但还没有 Flink 支持。

猜猜我的问题是 Flink 什么时候会提供基于 hadoop 2.8.0 的版本?

0 投票
2 回答
1091 浏览

apache-flink - Yarn 上的 Flink JobManager 是否需要 Zookeeper 进行 HA 设置

Flink 文档说“当运行一个高可用的 YARN 集群时,我们不会运行多个 JobManager (ApplicationMaster) 实例,而是只运行一个,它会在失败时由 YARN 重新启动。”。然后在“高可用性:zookeeper”下方。

我没有使用纱线的经验,但是如果纱线负责重启并且我们只有一个 JobManager,为什么我们需要设置 Zookeeper?或者这是资源管理器的动物园管理员?

0 投票
1 回答
2714 浏览

apache-flink - Flink exactly-once message processing

I've setup a Flink 1.2 standalone cluster with 2 JobManagers and 3 TaskManagers and I'm using JMeter to load-test it by producing Kafka messages / events which are then processed. The processing job runs on a TaskManager and it usually takes ~15K events/s.
The job has set EXACTLY_ONCE checkpointing and is persisting state and checkpoints to Amazon S3. If I shutdown the TaskManager running the job it takes a bit, a few seconds, then the job is resumed on a different TaskManager. The job mainly logs the event ids which are consecutive integers (e.g. from 0 to 1200000).
When I check the output on the TaskManager I shut down the last count is for example 500000, then when I check the output on the resumed job on a different TaskManager it starts with ~ 400000. This means ~100K of duplicated events. This number is dependent on the speed of the test can be higher or lower.
Not sure if I'm missing something but I would expect the job to display the next consecutive number (like 500001) after resuming on the different TaskManager.
Does anyone know why this is happening / extra settings I have to configure to obtain the exactly once?

0 投票
1 回答
386 浏览

scala - Lagom 将事件(记录)的直接流插入 Cassandra

我是 Lagom 和持久性实体数据库概念的新手。

我正在构建流分析引擎。我的每个分析都将作为独立的微服务工作,并且根据其设计理念,对于每个单独的微服务,结果将保存在自己的数据库中(我的案例 Cassandra)。我正在使用 Flink 和 Spark 进行流分析,然后使用 Phantom for Flink(Cassandra 的 Scala 驱动程序)将结果发送到 Cassandra。我无法理解 Lagom 框架中的以下挑战。

  1. 为了存储分析结果,我仍然需要实现持久性实体(PE)来将记录存储在 Cassandra 中,或者我应该购买它并可以直接存储到 Cassandra?我的应用程序既不支持删除器也不支持更新。仅插入以可视化结果。Flink & Spark 已经支持容错。

  2. 如何在没有持久性实体的情况下访问 Cassandra 会话?

  3. 如果我在 Lagom 中使用 Phantom 驱动程序,那么它与 Lagom 的嵌入式 Cassandra 有一些冲突;无法在服务定位器中注册服务。

您能否建议我应该如何处理这种情况。也就是说每一个微服务,它的架构都是基于KAPPA 架构的

谢谢

0 投票
0 回答
385 浏览

apache-flink - Apache Flink CEP 在监听 RMQSource 之前初始化一个输入数据流

我正在使用 Flink 1.2 CEP 来检测设备丢失的心跳事件。我从 RabbitMQ 源读取心跳事件,并使用以下模式通过超时功能检测由序列号键入的设备丢失的心跳。

此模式流适用于从设备发送至少单个心跳的情况。但是我还需要处理检测设备丢失心跳的用例,该设备在应用程序启动后甚至没有启动一次心跳。

为此,我需要使用所有设备初始化心跳事件来初始化输入心跳流。如果我初始化流,这将处理没有收到第一次心跳的设备也会超时并发出警报。

即使在从 RMQSource 函数侦听之前,如何使用所有设备的 init heartbeat 数据初始化数据流?

0 投票
0 回答
924 浏览

scala - java.io.NotSerializableException 使用 Apache Flink 和 Lagom

我正在 Lagom 的微服务实现中编写 Flink CEP 程序。我的 FLINK CEP 程序在简单的 scala 应用程序中运行良好。但是当我在 Lagom 服务实现中使用此代码时,我收到以下异常

在此处输入图像描述

Lagom 服务实施

我不明白如何解决这个问题。

0 投票
1 回答
168 浏览

apache-kafka - 在一个数据流中匹配或加入来自两个 kafka 主题的事件和规则

我想在一个数据流中加入两个 kafka 主题。

事实上,两个数据流必须具有相同的 id 才能进行连接。事件是来自传感器的数据,规则包含将使用 CEP(来自用户界面)检查的规则。

这是我的测试,但它不起作用,有人可以帮助我吗?

0 投票
1 回答
746 浏览

apache-flink - 有没有 Java 语言的 Apache Flink 机器学习教程

我正在寻找一个教程,告诉我们设置一个基本的 apache flink 机器学习。当前可用 的材料是 scala 语言。

0 投票
1 回答
191 浏览

scala - flink 滑动窗口会考虑重复消息吗?

假设我正在使用事件时间处理和滑动窗口时间窗口 10 和滑动因子 5 秒。

所以现在例如一些消息在 8 秒事件时间到达,所以它会首先落入

现在它滑动了 5 秒,现在窗口是 5 到 15。所以 window1 考虑的相同消息,window2 也会考虑该消息。

所以我的问题是不重复的消息会影响我的计算吗?建议我我想好还是不好?如果它考虑两个消息,那么如何将其视为独特的?

0 投票
4 回答
6123 浏览

streaming - 为我们的流事件构建实时规则引擎的最佳方法

我们正在开始构建物联网云平台项目。有一些众所周知的部分可以实现完整的物联网平台解决方案。其中之一是实时规则处理/引擎系统,需要了解流事件与最终用户以可读格式动态定义的任何规则相匹配(SQL 或 Drools if/when/then 等)

我很困惑,因为互联网上有很多产品、项目(Storm、Spark、Flink、Drools、Espertech 等),所以考虑到我们有 3 人开发团队(初级、中高级、高级),最好的选择是什么?

  • 选择 Apache Flink 等流式传输项目之一并学习好?
  • 选择一个完整的解决方案(AWS、Azure 等)