问题标签 [apache-flink]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1882 浏览

scala - Flink Kafka 找不到 org/I0Itec/zkclient/serialize/ZkSerializer

这是我在 Flink 中使用 Kafka 的简单 Scala 程序:

在 build.sbt 中:

我正在使用“sbt assembly”来构建一个胖 jar,因此目标 jar 文件应该包含所有内容。但是,运行目标jar文件时会出现错误:

我已经把 zkclient-0.5.jar 放在 /lib 下。任何人都可以解释一下吗?

0 投票
1 回答
1074 浏览

java - apache flink - 过滤作为终止条件

我已经通过 k-means 为终止条件定义了一个过滤器。如果我运行我的应用程序,它总是只计算一次迭代。

我认为问题出在这里:

或者也许是过滤器功能:

最好的问候,保罗

我的完整代码在这里:

0 投票
1 回答
627 浏览

scala - ApacheFlink 中的数据集联盟

我正在尝试将a 合并到FlinkSeq[DataSet(Long,Long,Double)]中的单个:DataSet[(Long,Long,Double)]

其中 graph 是一个常规的 scala 集合,但可以转换为 DataSet;结果是一个DataSet[Vector]并且不应该被收集并且在邻居方法中是需要的

我总是得到一个 FlinkRuntime Exeption:

目前无法处理超过 64 个输出的节点。org.apache.flink.optimizer.CompilerException:当前无法处理超过 64 个输出的节点。在 org.apache.flink.optimizer.dag.OptimizerNode.addOutgoingConnection(OptimizerNode.java:347) 在 org.apache.flink.optimizer.dag.SingleInputNode.setInput(SingleInputNode.java:202

0 投票
1 回答
2316 浏览

java - Maven 构建缺少包链接

我在使用 Maven 时遇到问题。我有一个 Apache Flink 项目,想在我的服务器上运行它。在本地它运行良好,但在服务器上它因错误而中止:

在我的 Java 项目中,我使用

我在导入时使用了正确的类:

在此处输入图像描述

在构建之后,我查看了 Jar 文件。包括以下课程:

在此处输入图像描述

/util/ 文件夹完全丢失。我在 pom 文件中的依赖部分如下所示:

当我在位于https://github.com/apache/flink/tree/release-0.9的存储库中看到包组织时,我认为可以在 flink 中添加以下行:

但是这些依赖关系无法解决。由于 Maven 在执行全新安装时不会抛出错误,我认为这是一个依赖问题。我认为 Maven 会自动包含所有使用过的导入。我怎样才能让它在我的服务器上运行?

0 投票
1 回答
584 浏览

java - 如何在 Apache Flink 中定义数据集的起始位置?

我尝试在 Apache Flink 中实现一种窗口函数。例如,我想取元素 1 - 5 并对它们做一些事情,然后我想取元素 6 - 10 等等。

目前我有一个数据集,其数据由 CSV 文件派生:

现在我想要一个包含该数据集前 5 个元素的子集。我也许可以用first-function 做到这一点:

但是如何获得接下来的 5 个元素呢?有没有像函数一样的startAt函数,我可以使用?例如这样的:

我在 Apache Flink Java API 中没有找到任何东西。存档此文件的最佳方法是什么?

0 投票
0 回答
1106 浏览

apache-flink - 关于在 Yarn 上部署 Flink 的错误

我尝试在 Yarn 上部署 Flink,但失败了。Yarn 似乎无法启动容器。有人知道这个问题吗?任何建议将不胜感激。

当我像这样启动 Flink 时:

我得到以下控制台打印输出:

0 投票
3 回答
5007 浏览

apache-flink - 如何在 Flink 中引用外部 Jar

每个人。我试图在 Flink 中引用我的公司 jar,将其复制到所有任务管理器中的 $FLINK/lib 中,但失败了。而且我不想打包一个胖罐子,太重了,浪费时间。我认为第一种方法也不是一个好主意,因为我必须管理整个集群中的 jars。任何人都知道如何解决这个问题?任何建议将不胜感激。

0 投票
2 回答
470 浏览

hadoop - Hadoop中的分布式文件处理?

我有大量压缩的 tar 文件,其中每个 tar 本身包含几个文件。我想提取这些文件,我想使用 hadoop 或类似的技术来加速处理。有解决这类问题的工具吗?据我所知,hadoop 和 spark 或 flink 等类似框架不直接使用文件,也不让您直接访问文件系统。我还想对提取的文件进行一些基本的重命名并将它们移动到适当的目录中。

我可以创建一个创建所有 tar 文件列表的解决方案。然后将该列表传递给映射器,单个映射器从列表中提取一个文件。这是一个合理的方法吗?

0 投票
1 回答
1025 浏览

apache-flink - 如何在 DataStream API 中添加自定义运算符

我想实现一个具有两个输入流并从每个流中获取一个项目以同时处理这两个输入流的运算符,例如连接。此外,如果两个输入之一没有任何数据,则操作员将阻塞并等待它。

如果我必须这样做,涉及哪些课程?关于它的教程要好得多。任何建议将不胜感激!

0 投票
1 回答
628 浏览

java - 将数组存储在 RDD 中的有效方法

我需要将类型数组存储在 RDD 中。为此,我使用 Hadoop 中的ArrayWritable类:

它有效,但我想确保在不需要时不会序列化对象。我想尽可能地留在记忆中。Spark 和 Flink 声称将数据保存在内存中。ArrayWritable 类是这种情况吗?这是存储数组的有效方法吗?谢谢!

编辑:来自@mattinbits 的回答,对于Spark,有效的方法是使用Java 数组ArrayList(用于动态调整大小)