问题标签 [apache-flink]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1258 浏览

apache-flink - 如何在 Zeppelin 中将 Flink var 的内容写入屏幕?

我尝试在 Apache Zeppelin 中运行以下简单命令。

我尝试在笔记本上打印出结果。但不幸的是,我只得到以下输出。

如何将计数的内容溢出到 Zeppelin 的笔记本中?

0 投票
2 回答
2537 浏览

kryo - 在 Apache Flink 中使用 Collections$UnmodifiableCollection

在使用带有以下代码的 Apache Flink 时:

我得到了这个例外

我如何UnmodifiableCollection使用 Flink?

0 投票
1 回答
202 浏览

apache-flink - 如何以编程方式更新我的 Flink 版本

目前我的机器上安装了 Flink 0.8.1。我通过 Maven 安装它,想知道如何更新它。我是否必须卸载所有内容才能更新到当前版本?或者我可以通过 Maven 来做吗?

0 投票
2 回答
110 浏览

apache-flink - flink:重叠阅读

我想实现一个具有以下访问模式的算法(类似于有限差分算法):

有限差分

在此示例中,dataset_1 的第一个值用于计算 dataset_2 的第一个和第二个值。所以,对于这个值,我应该有 2 个不同的键。因此,必须多次读取dataset_1 的某些值(2 或 3 次)。

我想我必须使用groupBy(key).reduce(Algorithm)转换,但我不知道如何定义键。

0 投票
0 回答
205 浏览

scala - 简单的流式字数统计不起作用(Scala)

测试 apacheflink流 API,我通过一个简单的例子发现了一些奇怪的东西。

此代码在 10 秒的窗口下每 ​​5 秒计算一次单词。直到前 10 秒,计数听起来不错,之后,每个打印都显示错误计数 - 每个单词一个。我的代码有问题吗?

输出是:

0 投票
1 回答
597 浏览

count - flink table count 具有相同条目的行

我有一个表格,列中有不同的条目(但我不知道所有条目)

现在我想要一个列表或字典,其中第一列的所有条目都是计数的:

我试过了:

我尝试使用 Word-Count 示例链接,但它需要一个字符串数组作为输入?!所以

不起作用。

0 投票
1 回答
1278 浏览

scala - writeAsCSV() 和 writeAsText() 是意外的

我正在通过 Scala API 使用 apache flink,并且在某些时候我获得了 DataSet[(Int, Int, Int)]. 使用这些方法的结果 writeAsCSV()writeAsText()出乎意料的。它创建一个目录。该目录具有方法调用的第一个参数作为位置和名称(例如 filePath 。)在该目录中出现两个文件,名称为“1”和“2”。在这些文件中,我可以看到 DataSets 数据。他们似乎将 DataSets 内容划分为这两个文件。尝试重新创建此行为以显示更简洁的代码片段,我无法做到。那就是我目睹了在预期位置创建了一个具有预期名称的文件,并且没有创建目录。val mas = ma_ groupBy(0,1) sum(2) mas.writeAsCsv("c:\flink\mas.csv" )

导致创建一个名为“mas.csv”的目录和其中的两个文件“1”和“2”。什么时候会发生这样的事情?使用了 flink 9.1 本地模式,Windows 7,scala 2.10,eclipse3.0.3

0 投票
1 回答
215 浏览

apache-spark - Google Cloud Dataflow 的备用管道运行器

我读到Cloudera将 Google Cloud Dataflow 管道运行器改编为在 Spark 上运行,并且Data Artisans 将其改编为在 Flink 上运行。尚不清楚 Cloudera 是否同时实现了批处理和窗口流式处理,一篇文章说没有,但其他文章似乎没有提及它,好像它已包含在内,而 Data Artisans 明确表示正在为 Flink 开发流式处理支持。

是否有来自 Google 或其他 Dataflow 维护者的页面列出了所有现有的备用管道运行器?取而代之的是,有人会关心维护一个规范的项目符号列表吗?谷歌云平台似乎还没有急于引入非谷歌实现,可能是因为这使得外部存储库与内部版本的同步更加直接。

0 投票
1 回答
571 浏览

java - 将 Flink scala 翻译成 java

Flink 文档给出了 SVM 算法的 scala 示例:

对“适合”的调用将如何转换为 java?

(java 表达式“svm.fit(trainingDS)”给出了 java 编译器错误:

“类型 SVM 中的方法 fit(DataSet, ParameterMap, FitOperation) 不适用于参数 (DataSet)”)

0 投票
2 回答
143 浏览

eclipse - 建议使用 Flink 和 Scala 的堆栈是什么?

我目前的尝试:

  • 带有 scala-ide 插件的 Eclipse 4.4.2 Luna
  • 为 scala 2.11 重新构建 Flink(默认情况下,maven 下载适用于 scala 2.10 的官方 Flink 构建。这给 IDE 带来了一些问题,例如可怕的宏不兼容

但是像这样工作有点麻烦,因为你需要:

  • 每次更新到最新的源代码时为 scala 2.11 重建 Flink。
  • 具有正确的 maven 设置,以便在 Eclipse 中构建项目时,您的项目依赖项不会被 Flink 官方构建覆盖(即用 scala 2.10 构建覆盖您的 scala 2.11 Flink 构建)。