问题标签 [apache-flink]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 将数据集与自定义对象数组一起使用时,Flink 中的 NoSuchMethod 异常
我有 Flink 的问题
有问题的线是这个
在FlinkRegionType
我有一个Array
自定义对象
我在 IDE 中使用 maven 插件开发了该应用程序,一切正常,但是当我移至从网站下载的版本时,出现上述错误
我正在使用 Flink 0.9
我在想可能缺少一些库,但我正在使用 Maven 来处理所有内容。此外,运行ObjectArrayTypeInfo.java的代码似乎不是问题
scala - flink reduceGroup 中的迭代器行为
我正在创建一个应该处理大量数据的系统,我需要了解 reduce 组运算符的工作原理
我有一个数据集,我在其中应用了一个 groupby,然后应用了一个 reduceGroup 传递给 reduceGroup 函数的迭代器如何表现?它是在请求数据时加载数据的惰性迭代器,还是在创建时准备内存中所有数据的急切迭代器?
我在 flink 0.9 里程碑1中使用 scala api
java - Apache Flink Channel 在完成当前部分记录之前收到了一个事件
我用 flink(java,maven 8.1 版)从磁盘读取了一个 csv 文件(http://data.gdeltproject.org/events/index.html)并得到以下异常:
我的代码:
也许有人有解决方案?
最好的问候保罗
apache-flink - 在 Flink 中,流窗口化似乎不起作用?
我试图增强显示流使用的 Flink 示例。我的目标是使用窗口功能(请参阅window
函数调用)。我假设下面的代码输出流的最后 3 个数字的总和。(由于nc -lk 9999
在 ubuntu 上打开了流)实际上,输出总结了所有输入的数字。切换到时间窗口产生相同的结果,即不产生窗口。
那是一个错误吗?(使用的版本:github 上的最新版主)
apache-flink - Flink 在 distinct() 中使用了什么魔法?代理键是如何生成的?
关于生成代理键,第一步是获取不同的,然后为每个元组构建一个增量键。
所以我使用 Java Set 来获取不同的元素,它的堆空间不足。然后,我使用了 Flink 的 distinct(),它完全可以工作。
我能问一下有什么不同吗?
另一个相关的问题是,Flink 可以在 mapper 中生成代理键吗?
java - 在本地执行示例 Flink 程序
我正在尝试以本地模式在 Apache Flink 中执行示例程序。
它给了我例外:
我究竟做错了什么?
我也使用了正确的罐子。 flink-java-0.9.0-milestone-1.jar flink-clients-0.9.0-milestone-1.jar flink-core-0.9.0-milestone-1.jar
scala - Apache Flink 上的 zipWithIndex
我想为输入的每一行分配一个id
- 应该是一个从0
to的数字N - 1
,其中N
是输入中的行数。
粗略地说,我希望能够执行以下操作:
但是在 Apache Flink 中。可能吗?
scala - 从 Apache Flink 中的输入文件创建对象
我有一个由文件夹和文件构成的数据集。文件夹/文件结构本身对于数据分析很重要。
数据集的结构:
每个文件都包含描述一个对象的数据。文件的格式是一致的。它基本上是一个包含两列的 csv 文件。这两列应表示为结果对象中的元组序列。
文件的大小非常小。最多只有 20 kb。每个文件夹包含大约 200 个文件。
所需的输出对象应该是:
如何处理在 Scala 中读取此数据集?
java - YARN 上 Spark 提交和 Flink 的 HDFS 路径
我使用 cloudera live vm,我有一个 hadoop 和 spral 独立集群。现在我想用 spark submit 和 flink run 脚本提交我的工作。这也有效。但我的应用程序可以在 hdfs 中找到输入和输出文件的路径。我将路径设置为: hdfs://127.0.0.1:50010/user/cloudera/outputs 来自我从中获得的端口的信息:
如何在java中设置hdfs的路径?
最好的问候,保罗
apache-storm - Flink 和 Storm 之间的主要区别是什么?
Flink与 Spark 进行了比较,在我看来,这是错误的比较,因为它将窗口事件处理系统与微批处理进行了比较;同样,将 Flink 与 Samza 进行比较对我来说没有多大意义。在这两种情况下,它都会比较实时和批处理事件处理策略,即使在 Samza 的情况下“规模”较小。但我想知道 Flink 与 Storm 相比如何,后者在概念上似乎更相似。
我发现这个(幻灯片#4)记录了 Flink 的“可调节延迟”的主要区别。另一个提示似乎是Slicon Angle的一篇文章,该文章建议 Flink 更好地集成到 Spark 或 HadoopMR 世界中,但没有提及或引用实际细节。最后,Fabian Hueske 本人在接受采访时指出,“与 Apache Storm 相比,Flink 的流分析功能提供了高级 API,并使用更轻量级的容错策略来提供恰好一次处理的保证。”
所有这些对我来说有点稀疏,我不太明白这一点。有人能解释一下 Flink 完全解决了 Storm 中流处理的哪些问题吗?Hueske 所指的 API 问题及其“更轻量级的容错策略”指的是什么?