问题标签 [apache-flink]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 任务不可序列化 Flink
我正在尝试在 flink 中进行 pagerank Basic 示例,并稍作修改(仅在读取输入文件时,其他一切都相同)我收到错误,因为Task not serializable并且下面是输出错误的一部分
atorg.apache.flink.api.scala.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:179) 在 org.apache.flink.api.scala.ClosureCleaner$.clean(ClosureCleaner.scala:171)
下面是我的代码
对正确方向的任何帮助都受到高度赞赏?谢谢你。
apache-flink - 表 API Scala
我正在尝试使用 flink scala table api 加入两个表。我有一个带有两个(a,b)列的表和另一个带有一个(c)列的表我想将这两个表连接到一个具有三个(a,b,c)列的更大的表中。我只是想加入他们我不想使用任何条件(Where 子句)加入他们。但是Flink给我一个使用Where子句的错误,这是一种在where子句中没有任何条件的加入表的方法吗?如果我想使用 where 子句,我应该给出什么条件?
下面是我加入两个表的命令
对正确方向的任何帮助都将受到高度赞赏。谢谢你。
machine-learning - 用于机器学习算法的 Flink HBase 输入
我想使用 Flink-HBase 插件读取数据,然后作为 Flink 机器学习算法的输入,分别是 SVM 和 MLR。现在我首先将提取的数据写入一个临时文件,然后通过 libSVM 方法将其读入,但我想应该有更复杂的方法。
您有代码片段或想法吗?
mapreduce - 图中度数很大的节点带来了 distinct() 边缘的麻烦
我有一张图表,大约 75% 的连接仅来自一个节点
例如,如果所有节点的度数之和为 100,则该节点的度数为 75。
经过一些操作,该节点存在大量重复边。
假设1是这种节点
1,2
1,2
1,2
1,2
1,2
1,2
1,3
1,3
1,3
但是,它有太多重复的键来获取 distinct() 边缘。我在使用 distinct() 之前尝试过重新分区,但它仍然无法解决太多重复键的问题,现在写入磁盘然后使用 distinct() 解决了这个问题。
有没有更好的方法来处理这种极度偏斜的问题?
maven - 运行使用 maven 构建的 jar 时的 FlinkMLTools NoClassDef
我正在使用 Apache Flink 开发推荐系统。当我在 IntelliJ 中测试它时,该实现正在运行,但我现在想在集群上运行。我还构建了一个 jar 文件并在本地对其进行了测试,以查看是否一切正常,但我遇到了问题。
java.lang.NoClassDefFoundError: org/apache/flink/ml/common/FlinkMLTools$
如我们所见,FlinkMLTools
在运行 jar 期间找不到我的代码中使用的类。我使用 Maven 3.3.3 构建了这个 jar,mvn clean install
并且我使用的是 Flink 0.9.0 版本。
第一条线索
事实是我的全球项目包含其他项目(这个推荐人是子项目之一)。这样,我必须mvn clean install
在正确项目的文件夹中启动,否则 Maven 总是会构建另一个项目的 jar(我不明白为什么)。所以我想知道是否有一种方法可以明确地告诉 maven 来构建全球项目的一个特定项目。实际上,可能路径包含在全局项目文件中FlinkMLTools
存在的链接中。pom.xml
还有其他想法吗?
scala - 任何人都可以在 Scala 中分享 Flink Kafka 示例吗?
任何人都可以在 Scala 中分享 Flink Kafka(主要从 Kafka 接收消息)的工作示例吗?我知道 Spark 中有一个KafkaWordCount示例。我只需要在 Flink 中打印出 Kafka 消息。这真的很有帮助。
apache-flink - JoinWithTiny、JoinWithHuge 和 joinHint 的区别和好处
使用 joinHint 和 joinWithTiny、joinWithHuge 有什么区别?
关于joinHint,我们可以使用BROADCAST_HASH_FIRST:提示第一个join输入远小于第二个。REPARTITION_HASH_FIRST:提示第一个连接输入比第二个小一点。
同时,我们也可以使用 joinWithHuge 和 joinWithTiny
他们是一样的吗?所以 joinWithTiny 正在使用 BROADCAST_HASH_FIRST?
利用这些的好处是 Flink 作业节省了检查连接数据大小的时间?
apache-flink - 如何理解 Flink 窗口语义?
谁能帮我回答这个问题,如果有一个 5 秒的时间窗口每 2 秒执行一次聚合操作。第一个 2s 处理 n 和 n+5 之间的窗口中的数据,而第二个 2s 处理 n+2 和 n+7 之间的窗口中的数据。似乎 Flink 在 n+2 到 n+5 的时间内做了重复的工作。是那个吗?任何帮助将不胜感激!
apache-flink - Flink 0.9.0 Release 中的 Count Window 是本地的还是全局的
当我运行自己修改的 wordcount 示例时,我遇到了 Flink 0.9.0 Release 的一些问题。我发现count窗口的行为与官方文档不同的本地窗口。而且我还在https://issues.apache.org/jira/browse/FLINK-1657中发现了一个已修复的错误。哪个是正确答案?任何帮助,将不胜感激!非常感谢