问题标签 [apache-flink]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
965 浏览

bzip2 - Apache Flink 的 BZip2 压缩输入

我有一个用 bzip2 压缩的维基百科转储(从http://dumps.wikimedia.org/enwiki/下载),但我不想解压缩它:我想在动态解压缩时处理它。

我知道可以在纯 Java 中执行此操作(参见例如Java - Read BZ2 file and uncompress/parse on the fly),但我想知道如何在 Apache Flink 中执行此操作?我可能需要的是类似https://github.com/whym/wikihadoop但对于 Flink,而不是 Hadoop。

0 投票
1 回答
866 浏览

xml - Apache Flink 的 XmlInputFormat

有没有类似于Mahout 的 XmlInputFormat但适用于 Flink 的东西?

我有一个很大的 XML 文件,我想提取特定元素。就我而言,这是一个维基百科转储,我需要获取所有<page>标签。

即如果我有一个文件

我想<page>...</page>在映射器中使用所有 3 条记录。理想情况下,它应该是有效的 XML,即 xpath 查询/mediawiki/page将返回的内容。

0 投票
2 回答
485 浏览

java - 使用随机行顺序测试 csv 文件是否相等(Junit)

我正在使用 Apache Flink 开发一个项目,并且正在使用 junit 来测试我的操作员。

但是我面临一个问题:由于并行性,flink 将以“随机”行顺序写入其输出 csv 文件,因此我无法轻易断言输出文件等于 Junit 的预期输出文件。

性能不是问题,因为我们讨论的是小文件(<100 行)并且仅用于测试。

有简单的解决方案吗?

0 投票
1 回答
3343 浏览

scala-ide - Flink Scala API“没有足够的参数”

我在使用 Apache Flink Scala API 时遇到问题

例如,即使我从官方文档中获取示例,scala 编译器也会给我带来大量编译错误。

代码:

Scala IDE 为该行输出以下内容val text = env.fromElements

这不仅仅是fromElements方法:即使我从文件中读取然后尝试做一些简单的事情ds.map(r => r),我也会得到非常相似的东西

我尝试了 Flink 的两个版本:来自 Maven Central 的 0.8.1 和来自 github 存储库的最新版本。

我在 Eclipse 4.3.0 之上运行 Windows 7,scala 2.10.4,jdk 1.7.0_25,Scala IDE 版本是 3.0.3-20140327-1716-Typesafe

我究竟做错了什么?

0 投票
1 回答
1477 浏览

apache-flink - 泛型参数上的 Flink Scala API 函数

这是关于Flink Scala API "not enough arguments"的后续问题。

我希望能够传递 Flink 的DataSets 并对其进行处理,但数据集的参数是通用的。

这是我现在遇到的问题:

我有这个错误ds.map(r => r)

当然,id这里的函数只是一个例子,我希望能够用它做一些更复杂的事情。

如何解决?

0 投票
1 回答
1565 浏览

apache-spark - 结构化和非结构化数据与大规模数据处理引擎的集成

Spark、apache flink等数据处理引擎如何将结构化、半结构化和非结构化数据整合在一起并影响计算?

0 投票
2 回答
4377 浏览

machine-learning - Apache Flink 与 Apache Spark 作为大规模机器学习的平台?

谁能将 Flink 和 Spark 作为机器学习平台进行比较?对于迭代算法,哪个可能更好?链接到 Flink 与 Spark 的一般讨论:Apache Spark 和 Apache Flink 有什么区别?

0 投票
2 回答
3179 浏览

hadoop - Apache Flink 与 Hadoop 上的 Mapreduce 相比如何?

Apache Flink 与 Hadoop 上的 Mapreduce 相比如何?它在哪些方面更好,为什么?

0 投票
2 回答
481 浏览

java - 在第二次计算中重用第一次计算的结果

我正在尝试在 Flink 中编写一个需要两个阶段的计算。

在第一阶段,我从一个文本文件开始,执行一些参数估计,得到一个代表数据统计模型的 Java 对象。

在第二阶段,我想使用这个对象来生成模拟数据。

我不确定该怎么做。我尝试使用 a LocalCollectionOutputFormat,它在本地工作,但是当我在集群上部署作业时,我得到NullPointerException- 这并不奇怪。

Flink 这样做的方式是什么?

这是我的代码:

这是我得到的例外:

0 投票
1 回答
1404 浏览

maven - 运行 Apache Flink 作业时链接失败

我在 Flink 0.9 中开发了一份使用图形模块(Gelly)的工作。该作业在 IDE (Eclipse) 中成功运行,但在使用 maven (mvn clean install) 将其导出到 JAR 后,它无法在本地 flink 实例上执行,并出现以下错误

“由于链接失败,无法加载程序的入口点类‘myclass’”

知道为什么会发生这种情况以及如何解决吗?