问题标签 [apache-flink]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2509 浏览

memory - Spark vs Flink 可用内存不足

我已经构建了一个 Spark 和 Flink k-means 应用程序。我的测试用例是一个 3 节点集群上 100 万个点的集群。

当内存出现瓶颈时,Flink 开始外包到磁盘,工作缓慢但有效。但是,如果内存已满,Spark 会丢失执行程序并重新启动(无限循环?)。

我尝试在邮件列表的帮助下自定义内存设置,谢谢。但 Spark 仍然无法正常工作。

是否需要设置任何配置?我的意思是 Flink 在低内存的情况下工作,Spark 也必须能够;或不?

0 投票
1 回答
1839 浏览

apache-flink - Apache Flink 中的存储

在处理了数百万个事件/数据之后,存储信息的最佳位置是在哪里说值得保存数百万个事件?我看到这个提交关闭了一个拉取请求,提到 Parquet 格式,但是,默认是 HDFS?我担心的是保存后(在哪里?)是否可以轻松(快速!)检索该数据?

0 投票
1 回答
112 浏览

scala - FlinkML:加入 LabeledVector 的数据集不起作用

我目前正在尝试加入两个数据集(flink 0.10-SNAPSHOT API 的一部分)。两个 DataSet 具有相同的形式:

我要创建的是一个新的 DataSet[(Double,Double)] 只包含两个 DataSet 的标签,即:

因此我尝试了以下命令:

但结果“加入”是空的。我错过了什么吗?

0 投票
2 回答
1783 浏览

hadoop-yarn - 无法在亚马逊 emr 中使用 apache flink

我无法在 Amazon EMR 中启动 Apache Flink 的纱线会话。我得到的错误信息是

我正在使用 Flink 版本 0.9 和 Amazons Hadoop 版本 4.0.0。有什么想法或提示吗?

完整的日志可以在这里找到:https ://gist.github.com/headmyshoulder/48279f06c1850c62c28c

0 投票
1 回答
1524 浏览

apache-flink - 线程“主”java.lang.NoClassDefFoundError 中的 Apache Flink 异常:scala/collection/Traversable

我刚开始学习 Apache Flink 并找到了在 EClipse IDE 中开始开发的指南链接。

我按照这个开始但得到以下错误

00:20:26,993 INFO org.apache.flink.api.java.ExecutionEnvironment - 作业有 0 个注册类型和 0 个默认 Kryo 序列化程序 线程“main”java.lang.NoClassDefFoundError:scala/collection/Traversable 在 java.lang .ClassLoader.defineClass1(本机方法)

在这里,我放置了错误日志日志文件 ...如果您需要更多详细信息,请告诉我。谢谢, 尼亚马特

0 投票
1 回答
1100 浏览

apache-flink - Flink:如何在一次转换中处理和输出两个数据集?

join 和 coGroup 转换可以读取 2 个输入数据集并输出一个(“Y”通量)(如果我错了,请纠正我)。

我想处理和更新 2 个数据集。为此,我计划使用 2 个coGroup转换。

但是,出于性能目的,这两种转换可以在一个单一的(“H”通量)中完成吗?

此外,随着数据集的更新,我想对它们进行迭代。如果目前无法实现,您是否计划在未来支持这种转变?

0 投票
2 回答
1308 浏览

apache-flink - 在 YARN 集群 (Cloudera) 上执行 Flink 示例代码时,Kerberos 身份验证出错

我正在尝试在 YARN 集群上运行 Flink 来运行示例代码(flink示例WordCount.jar),但出现以下安全身份验证错误。

我不确定问题出在哪里以及我想做什么。我可以在同一个 cloudera hadoop 集群中运行 spark 或 map-reduce 作业而不会出现任何问题。

我确实在 flink-conf.yaml 中更新了 hdfs-site.xml 和 core-site.xml 的 CONF 文件路径(在 Master 和 Worker 节点中更新相同),并且还导出了 HADOOP_CONF_DIR 路径。我还尝试在执行 flink run 命令时在 HDFS 文件路径中提供 host:port。

错误信息

0 投票
1 回答
4544 浏览

apache-flink - 如何在 Flink Standalone 中查看日志或 Sysout

我在 Flink 中独立运行我的应用程序,但在控制台或FLINK_HOME/log.

有谁知道我在哪里可以看到我的应用程序调试日志?以及如何知道我的应用程序在哪些 TM 上运行?

0 投票
2 回答
2287 浏览

generics - 卡在 clojure 中的泛型类类型提示

我试图从在 clojure 中运行的 Apache flink 获得一个小例子,但现在我被卡住了,因为 clojure 中的类型提示和 flink 中的一些奇怪的怪癖。

这是我的代码:

如果我不提供类型提示,我会从 flink api 收到错误:

如果我提供类型提示:

我从 clojure 编译器得到一个错误:

有没有办法在 clojure 中使用泛型类添加类型提示?它应该是这样的:

但这不起作用。有任何想法吗?

lein 配置如下所示:

0 投票
1 回答
299 浏览

apache-flink - Flink Streaming 中有真正的全局参数吗?

是否存在所有并行任务(无论它们在哪个 TM 上运行)都可以写入和读取的真正全局参数?我测试了 GlobalJobParameter 类,但似乎每个线程都维护自己的实例。我正在寻找一个所有 UDF 都可以共享的地方。有人知道吗?非常感谢!