问题标签 [flink-streaming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
206 浏览

flink-streaming - 窗口的开始和结束时间

显示窗口开始和结束时间的方法是什么?诸如实现用户定义的窗口之类的东西?

想知道窗口开始和评估的时间,以便输出为

0 投票
2 回答
4092 浏览

java - apache flink 0.10 如何从无界输入数据流中获取复合键的第一次出现?

我是apache flink的新手。我的输入中有一个未绑定的数据流(通过 kakfa 输入到 flink 0.10)。

我想获得每个主键的第一次出现(主键是contract_num和event_dt)。
这些“重复”几乎立即发生在彼此之后。源系统无法为我过滤这个,所以 flink 必须这样做。

这是我的输入数据:

这是我想要的输出数据:

请注意,第二行已被删除,因为 A001 和“2016-02-24 10:25:08”的组合键已经出现在第一行。

我怎么能用 flink 0.10 做到这一点?

我正在考虑使用keyBy(0,1),但之后我不知道该怎么做!

(我使用 joda-time 和 org.flinkspector 来设置这些测试)。

0 投票
1 回答
3970 浏览

purge - apache fink 0.10 使用时间窗口清除过滤无限流上的重复项

如何通过时间窗口清除过滤掉无限流上的重复项?我没有无限的空间/内存,我知道在说 2 秒(在本地时钟上)之后,任何可能发生的重复都会发生。这意味着 2 秒后我可以丢弃(清除)旧数据。

使用时间窗口清除过滤无限流上的重复项。

我在这个问题中得到了如何删除重复项的一个很好的答案(非常感谢 Till):apache flink 0.10 如何从无界输入数据流中获取复合键的第一次出现?

但我不知道如何告诉 flink 在 2 秒(当地时间)后丢弃旧数据。

请问我怎么能用flink 0.10做到这一点?

非常感谢!!!

这是删除重复但不清除的语句:

如果我在它不可编译.timeWindow(Time.minutes(1), Time.seconds(30))之后添加。keyBy(0, 1)

0 投票
1 回答
2256 浏览

java - 使用 Apache Flink 从 Web 获取 JSON 元素

在阅读了 Apache Flink 的几个文档页面(官方文档dataartisans)以及官方存储库中提供的示例之后,我不断看到它们用作流式传输已下载文件的数据源的示例,始终连接到本地主机。

我正在尝试使用 Apache Flink 下载包含动态数据的 JSON 文件。我的目的是尝试建立可以访问 JSON 文件作为 Apache Flink 输入源的 url,而不是使用另一个系统下载它并使用 Apache Flink 处理下载的文件。

是否可以与 Apache Flink 建立此网络连接?

0 投票
2 回答
736 浏览

hadoop - Spark Streaming:如何使用多个输入来处理作业?

输入 1: KV 数据流。
输入 2:一些静态数据分区(用于处理输入 1 中的流)
问题可以建模为下图:与 HDFS/RDD 分区共存:我们如何确保流任务 Map1、Map2 和 Map3 在以下机器上运行HDFS/RDD 分区是否存在?图像描述:假设K
在此处输入图像描述


是流式密钥(不是元组)。First Map 将其转换为元组(具有空值)并将其广播到 3 个 Mapper。每个映射器运行在包含不同分区的 RDD(或 HDFS 文件,这是第二个输入和静态数据)的不同节点上。每个 Mapper 使用 RDD 分区来计算键的值。最后,我们要为键聚合值(使用 reduceByKey _+_)。

0 投票
1 回答
255 浏览

apache-spark - Spark Streaming:如何将输出反馈到输入

在此处输入图像描述
是否可以实现上述场景?
系统从一个键值对开始,并会发现新的键值对。首先,键值对的数量将增加,然后在迭代中减少。

更新:我必须转向 Flink Streaming 以获得迭代支持。不过会尝试使用卡夫卡!

0 投票
1 回答
202 浏览

sbt - Apache Flink RabbitMq SBT 依赖失败

我正在尝试将 Flink 与 RabbitMq 流连接器一起使用。尝试了所有可能的版本组合,但仍然失败。

这是我的 sbt 构建片段

错误片段

0 投票
1 回答
1691 浏览

java - Apache Flink InvocationTargetException:作业执行失败。连接超时

我正在根据 Apache Flink 的快速入门指南创建这个示例。我总是不断收到错误:

有很多例外来自 Flink 的内部文件,而不是我正在编码的文件。任何人都可以解决这个问题吗?

这是完整的例外:

0 投票
1 回答
3385 浏览

apache-flink - Apache Flink 1.0.0 。事件时间相关的迁移问题

我曾尝试将一些简单的 Task 迁移到 Flink 1.0.0 版本,但失败并出现以下异常:

该代码由两个通过 Kafka 主题连接的独立任务组成,其中一个任务是简单消息生成器,另一个任务是简单消息消费者,它使用 timeWindowAll 计算每分钟消息到达率。

同样,类似的代码在 0.10.2 版本上运行没有任何问题,但现在看起来系统错误地解释了一些事件时间戳,如 Long.MIN_VALUE 导致任务失败。

问题是我做错了什么,或者是一些将在未来版本中修复的错误?

主要任务:

时间戳提取器:

0 投票
2 回答
1199 浏览

activemq - 如何在 Apache Flink 中使用 ActiveMQ?

我通过 ActiveMQ 获取数据,我想使用 Apache Flink DataStreams 实时处理这些数据。支持 RabbitMQ 和 Kafka 等许多消息传递服务,但我看不到对 ActiveMQ 的任何支持。我该如何使用它?