问题标签 [apache-flink]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

6165 问题

0 投票

1 回答

965 浏览

bzip2 - Apache Flink 的 BZip2 压缩输入

我有一个用 bzip2 压缩的维基百科转储（从http://dumps.wikimedia.org/enwiki/下载），但我不想解压缩它：我想在动态解压缩时处理它。

我知道可以在纯 Java 中执行此操作（参见例如Java - Read BZ2 file and uncompress/parse on the fly），但我想知道如何在 Apache Flink 中执行此操作？我可能需要的是类似https://github.com/whym/wikihadoop但对于 Flink，而不是 Hadoop。

bzip2 apache-flink

2015-04-03T09:04:32.363

0 投票

1 回答

866 浏览

xml - Apache Flink 的 XmlInputFormat

有没有类似于Mahout 的 XmlInputFormat但适用于 Flink 的东西？

我有一个很大的 XML 文件，我想提取特定元素。就我而言，这是一个维基百科转储，我需要获取所有<page>标签。

即如果我有一个文件

我想<page>...</page>在映射器中使用所有 3 条记录。理想情况下，它应该是有效的 XML，即 xpath 查询/mediawiki/page将返回的内容。

xml mahout apache-flink

2015-04-03T09:20:41.647

0 投票

2 回答

485 浏览

java - 使用随机行顺序测试 csv 文件是否相等（Junit）

我正在使用 Apache Flink 开发一个项目，并且正在使用 junit 来测试我的操作员。

但是我面临一个问题：由于并行性，flink 将以“随机”行顺序写入其输出 csv 文件，因此我无法轻易断言输出文件等于 Junit 的预期输出文件。

性能不是问题，因为我们讨论的是小文件（<100 行）并且仅用于测试。

有简单的解决方案吗？

java csv testing junit apache-flink

2015-04-08T12:29:03.810

0 投票

1 回答

3343 浏览

scala-ide - Flink Scala API“没有足够的参数”

我在使用 Apache Flink Scala API 时遇到问题

例如，即使我从官方文档中获取示例，scala 编译器也会给我带来大量编译错误。

代码：

Scala IDE 为该行输出以下内容val text = env.fromElements

这不仅仅是fromElements方法：即使我从文件中读取然后尝试做一些简单的事情ds.map(r => r)，我也会得到非常相似的东西

我尝试了 Flink 的两个版本：来自 Maven Central 的 0.8.1 和来自 github 存储库的最新版本。

我在 Eclipse 4.3.0 之上运行 Windows 7，scala 2.10.4，jdk 1.7.0_25，Scala IDE 版本是 3.0.3-20140327-1716-Typesafe

我究竟做错了什么？

scala-ide apache-flink

2015-04-09T13:38:44.453

0 投票

1 回答

1477 浏览

apache-flink - 泛型参数上的 Flink Scala API 函数

这是关于Flink Scala API "not enough arguments"的后续问题。

我希望能够传递 Flink 的DataSets 并对其进行处理，但数据集的参数是通用的。

这是我现在遇到的问题：

我有这个错误ds.map(r => r)：

当然，id这里的函数只是一个例子，我希望能够用它做一些更复杂的事情。

如何解决？

apache-flink

2015-04-09T15:05:46.553

0 投票

1 回答

1565 浏览

apache-spark - 结构化和非结构化数据与大规模数据处理引擎的集成

Spark、apache flink等数据处理引擎如何将结构化、半结构化和非结构化数据整合在一起并影响计算？

apache-spark bigdata data-processing data-integration apache-flink

user4658980

2015-04-12T18:13:34.157

0 投票

2 回答

4377 浏览

machine-learning - Apache Flink 与 Apache Spark 作为大规模机器学习的平台？

谁能将 Flink 和 Spark 作为机器学习平台进行比较？对于迭代算法，哪个可能更好？链接到 Flink 与 Spark 的一般讨论：Apache Spark 和 Apache Flink 有什么区别？

machine-learning apache-spark apache-flink

2015-04-21T18:50:54.170

0 投票

2 回答

3179 浏览

hadoop - Apache Flink 与 Hadoop 上的 Mapreduce 相比如何？

Apache Flink 与 Hadoop 上的 Mapreduce 相比如何？它在哪些方面更好，为什么？

hadoop mapreduce apache-flink

2015-04-28T15:05:50.060

0 投票

2 回答

481 浏览

java - 在第二次计算中重用第一次计算的结果

我正在尝试在 Flink 中编写一个需要两个阶段的计算。

在第一阶段，我从一个文本文件开始，执行一些参数估计，得到一个代表数据统计模型的 Java 对象。

在第二阶段，我想使用这个对象来生成模拟数据。

我不确定该怎么做。我尝试使用 a LocalCollectionOutputFormat，它在本地工作，但是当我在集群上部署作业时，我得到NullPointerException- 这并不奇怪。

Flink 这样做的方式是什么？

这是我的代码：

这是我得到的例外：

java apache-flink

2015-04-30T14:15:36.413

0 投票

1 回答

1404 浏览

maven - 运行 Apache Flink 作业时链接失败

我在 Flink 0.9 中开发了一份使用图形模块（Gelly）的工作。该作业在 IDE (Eclipse) 中成功运行，但在使用 maven (mvn clean install) 将其导出到 JAR 后，它无法在本地 flink 实例上执行，并出现以下错误

“由于链接失败，无法加载程序的入口点类‘myclass’”

知道为什么会发生这种情况以及如何解决吗？

maven apache-flink gelly

2015-05-07T13:28:35.323

1 2 3 4 5 6 7 8 9 10