问题标签 [apache-flink]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bzip2 - Apache Flink 的 BZip2 压缩输入
我有一个用 bzip2 压缩的维基百科转储(从http://dumps.wikimedia.org/enwiki/下载),但我不想解压缩它:我想在动态解压缩时处理它。
我知道可以在纯 Java 中执行此操作(参见例如Java - Read BZ2 file and uncompress/parse on the fly),但我想知道如何在 Apache Flink 中执行此操作?我可能需要的是类似https://github.com/whym/wikihadoop但对于 Flink,而不是 Hadoop。
xml - Apache Flink 的 XmlInputFormat
有没有类似于Mahout 的 XmlInputFormat但适用于 Flink 的东西?
我有一个很大的 XML 文件,我想提取特定元素。就我而言,这是一个维基百科转储,我需要获取所有<page>
标签。
即如果我有一个文件
我想<page>...</page>
在映射器中使用所有 3 条记录。理想情况下,它应该是有效的 XML,即 xpath 查询/mediawiki/page
将返回的内容。
java - 使用随机行顺序测试 csv 文件是否相等(Junit)
我正在使用 Apache Flink 开发一个项目,并且正在使用 junit 来测试我的操作员。
但是我面临一个问题:由于并行性,flink 将以“随机”行顺序写入其输出 csv 文件,因此我无法轻易断言输出文件等于 Junit 的预期输出文件。
性能不是问题,因为我们讨论的是小文件(<100 行)并且仅用于测试。
有简单的解决方案吗?
scala-ide - Flink Scala API“没有足够的参数”
我在使用 Apache Flink Scala API 时遇到问题
例如,即使我从官方文档中获取示例,scala 编译器也会给我带来大量编译错误。
代码:
Scala IDE 为该行输出以下内容val text = env.fromElements
这不仅仅是fromElements
方法:即使我从文件中读取然后尝试做一些简单的事情ds.map(r => r)
,我也会得到非常相似的东西
我尝试了 Flink 的两个版本:来自 Maven Central 的 0.8.1 和来自 github 存储库的最新版本。
我在 Eclipse 4.3.0 之上运行 Windows 7,scala 2.10.4,jdk 1.7.0_25,Scala IDE 版本是 3.0.3-20140327-1716-Typesafe
我究竟做错了什么?
apache-flink - 泛型参数上的 Flink Scala API 函数
这是关于Flink Scala API "not enough arguments"的后续问题。
我希望能够传递 Flink 的DataSet
s 并对其进行处理,但数据集的参数是通用的。
这是我现在遇到的问题:
我有这个错误ds.map(r => r)
:
当然,id
这里的函数只是一个例子,我希望能够用它做一些更复杂的事情。
如何解决?
apache-spark - 结构化和非结构化数据与大规模数据处理引擎的集成
Spark、apache flink等数据处理引擎如何将结构化、半结构化和非结构化数据整合在一起并影响计算?
machine-learning - Apache Flink 与 Apache Spark 作为大规模机器学习的平台?
谁能将 Flink 和 Spark 作为机器学习平台进行比较?对于迭代算法,哪个可能更好?链接到 Flink 与 Spark 的一般讨论:Apache Spark 和 Apache Flink 有什么区别?
hadoop - Apache Flink 与 Hadoop 上的 Mapreduce 相比如何?
Apache Flink 与 Hadoop 上的 Mapreduce 相比如何?它在哪些方面更好,为什么?
java - 在第二次计算中重用第一次计算的结果
我正在尝试在 Flink 中编写一个需要两个阶段的计算。
在第一阶段,我从一个文本文件开始,执行一些参数估计,得到一个代表数据统计模型的 Java 对象。
在第二阶段,我想使用这个对象来生成模拟数据。
我不确定该怎么做。我尝试使用 a LocalCollectionOutputFormat
,它在本地工作,但是当我在集群上部署作业时,我得到NullPointerException
- 这并不奇怪。
Flink 这样做的方式是什么?
这是我的代码:
这是我得到的例外:
maven - 运行 Apache Flink 作业时链接失败
我在 Flink 0.9 中开发了一份使用图形模块(Gelly)的工作。该作业在 IDE (Eclipse) 中成功运行,但在使用 maven (mvn clean install) 将其导出到 JAR 后,它无法在本地 flink 实例上执行,并出现以下错误
“由于链接失败,无法加载程序的入口点类‘myclass’”
知道为什么会发生这种情况以及如何解决吗?