问题标签 [flinkml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
383 浏览

scala - ALS 的 OutOfBoundsException - Flink MLlib

我正在使用此处提供的 MovieLens 数据集为电影制作推荐系统:http: //grouplens.org/datasets/movielens/

为了计算这个推荐系统,我在 scala 中使用了 Flink 的 ML 库,特别是 ALS 算法 ( org.apache.flink.ml.recommendation.ALS)。

我首先将电影的评分映射到 a DataSet[(Int, Int, Double)],然后创建 atrainingSet和 a testSet(参见下面的代码)。

我的问题是当我将ALS.fit函数与整个数据集(所有评级)一起使用时没有错误,但如果我只删除一个评级,拟合函数不再起作用,我不明白为什么.

你有什么想法?:)

使用的代码:

Rating.scala

预处理.scala

处理.scala

“但如果我只删除一个评级”

错误 :

06/19/2015 15:00:24 CoGroup(在 org.apache.flink.ml.recommendation.ALS$.updateFactors(ALS.scala:570) 上的 CoGroup)(4/4)切换到 FAILED

java.lang.ArrayIndexOutOfBoundsException:5

在 org.apache.flink.ml.recommendation.ALS$BlockRating.apply(ALS.scala:358)

在 org.apache.flink.ml.recommendation.ALS$$anon$111.coGroup(ALS.scala:635)

在 org.apache.flink.runtime.operators.CoGroupDriver.run(CoGroupDriver.java:152)

...

0 投票
2 回答
320 浏览

maven - 运行使用 maven 构建的 jar 时的 FlinkMLTools NoClassDef

我正在使用 Apache Flink 开发推荐系统。当我在 IntelliJ 中测试它时,该实现正在运行,但我现在想在集群上运行。我还构建了一个 jar 文件并在本地对其进行了测试,以查看是否一切正常,但我遇到了问题。

java.lang.NoClassDefFoundError: org/apache/flink/ml/common/FlinkMLTools$

如我们所见,FlinkMLTools在运行 jar 期间找不到我的代码中使用的类。我使用 Maven 3.3.3 构建了这个 jar,mvn clean install并且我使用的是 Flink 0.9.0 版本。

第一条线索

事实是我的全球项目包含其他项目(这个推荐人是子项目之一)。这样,我必须mvn clean install在正确项目的文件夹中启动,否则 Maven 总是会构建另一个项目的 jar(我不明白为什么)。所以我想知道是否有一种方法可以明确地告诉 maven 来构建全球项目的一个特定项目。实际上,可能路径包含在全局项目文件中FlinkMLTools存在的链接中。pom.xml

还有其他想法吗?

0 投票
1 回答
112 浏览

scala - FlinkML:加入 LabeledVector 的数据集不起作用

我目前正在尝试加入两个数据集(flink 0.10-SNAPSHOT API 的一部分)。两个 DataSet 具有相同的形式:

我要创建的是一个新的 DataSet[(Double,Double)] 只包含两个 DataSet 的标签,即:

因此我尝试了以下命令:

但结果“加入”是空的。我错过了什么吗?

0 投票
1 回答
267 浏览

scala - 从 FlinkML 多元线性回归中提取权重

我正在运行 Flink (0.10-SNAPSHOT) 的示例多元线性回归。我不知道如何提取权重(例如斜率和截距,beta0-beta1,你想怎么称呼它们)。我在 Scala 中不是超级老手,这可能是我的一半问题。

感谢任何人可以提供的任何帮助。

0 投票
2 回答
254 浏览

maven - Flink 0.10.1 出错

在本地使用 flink 0.10.1 时,由于以下错误,我无法与 jobmanager 连接:

还有我的 pom.xml:

使用 flink 0.9.1 可以正常工作......我错过了什么?谢谢!

0 投票
2 回答
237 浏览

vector - FlinkML 0.10.1 用于训练的稀疏向量的多元线性回归

全部,

我正在尝试通过进行线性回归来测试 Flink ML 0.10.1,如下所述:

https://ci.apache.org/projects/flink/flink-docs-master/libs/ml/multiple_linear_regression.html

我使用的是 SparseVectors 而不是 DenseVector,但是在尝试训练模型时遇到了这个问题:

FlinkML MLG 不支持 SparseVectors 吗?

0 投票
1 回答
130 浏览

apache-flink - flink MultipleLinearRegression fit 需要 3 个参数

我遵循 https://ci.apache.org/projects/flink/flink-docs-release-1.0/apis/batch/libs/ml/multiple_linear_regression.html的示例, 但在示例中,拟合函数只需要一个参数,但在我的代码中,fit 需要三个参数,

mlr.fit(训练,fitParameters,fitOperation);

我认为 fitParameters 可能是 setIterations(),setStepsize() 的替代方法,但 fitOperation 是什么?

0 投票
1 回答
219 浏览

apache-flink - UnsortedGrouping 上的 apache-flink KMeans 操作

我有一个 flink DataSet(从文件中读取),其中包含来自许多不同传感器的传感器读数。我使用 flinks groupBy() 方法将数据组织为每个传感器的 UnsortedGrouping。接下来,我想以分布式方式在我的 DataSet 中的每个 UnsortedGrouping 上运行 KMeans 算法。

我的问题是,如何使用 flink 有效地实现这个功能。以下是我当前的实现:我编写了自己的 groupReduce() 方法,该方法将 flink KMeans 算法应用于每个 UnsortedGrouping。这段代码有效,但看起来很慢并且使用大量内存。

我认为这与我必须做的数据重组量有关。必须执行多次数据转换才能使代码运行,因为我不知道如何更有效地做到这一点:

  • UnsortedGrouping 到 Iterable(groupReduce() 方法的开始)
  • 可迭代到 LinkedList(需要这个才能使用 fromCollection() 方法)
  • LinkedList 到 DataSet(需要作为 KMeans 的输入)
  • 生成的 KMeans 数据集到 LinkedList(能够迭代收集器)

当然,必须有一种更有效、更高效的方法来实现这一点吗?谁能告诉我如何以一种干净有效的 flink 方式实现它?

0 投票
1 回答
1065 浏览

scala - 使用 scala 在 Flink 中进行实时流预测

Flink 版本:1.2.0
Scala 版本:2.11.8

我想使用 DataStream 使用 scala 在 flink 中使用模型进行预测。我在使用 scala 的 flink 中有一个 DataStream[String],其中包含来自 kafka 源的 json 格式数据。我想使用这个数据流来预测已经训练过的 Flink-ml 模型。问题是所有的 flink-ml 示例都使用 DataSet api 进行预测。我对 flink 和 scala 相对较新,因此将不胜感激以代码解决方案形式提供的任何帮助。

输入 :

代码 :

0 投票
1 回答
746 浏览

apache-flink - 有没有 Java 语言的 Apache Flink 机器学习教程

我正在寻找一个教程,告诉我们设置一个基本的 apache flink 机器学习。当前可用 的材料是 scala 语言。