问题标签 [flinkml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - ALS 的 OutOfBoundsException - Flink MLlib
我正在使用此处提供的 MovieLens 数据集为电影制作推荐系统:http: //grouplens.org/datasets/movielens/
为了计算这个推荐系统,我在 scala 中使用了 Flink 的 ML 库,特别是 ALS 算法 ( org.apache.flink.ml.recommendation.ALS
)。
我首先将电影的评分映射到 a DataSet[(Int, Int, Double)]
,然后创建 atrainingSet
和 a testSet
(参见下面的代码)。
我的问题是当我将ALS.fit
函数与整个数据集(所有评级)一起使用时没有错误,但如果我只删除一个评级,拟合函数不再起作用,我不明白为什么.
你有什么想法?:)
使用的代码:
Rating.scala
预处理.scala
处理.scala
“但如果我只删除一个评级”
错误 :
06/19/2015 15:00:24 CoGroup(在 org.apache.flink.ml.recommendation.ALS$.updateFactors(ALS.scala:570) 上的 CoGroup)(4/4)切换到 FAILED
java.lang.ArrayIndexOutOfBoundsException:5
在 org.apache.flink.ml.recommendation.ALS$BlockRating.apply(ALS.scala:358)
在 org.apache.flink.ml.recommendation.ALS$$anon$111.coGroup(ALS.scala:635)
在 org.apache.flink.runtime.operators.CoGroupDriver.run(CoGroupDriver.java:152)
...
maven - 运行使用 maven 构建的 jar 时的 FlinkMLTools NoClassDef
我正在使用 Apache Flink 开发推荐系统。当我在 IntelliJ 中测试它时,该实现正在运行,但我现在想在集群上运行。我还构建了一个 jar 文件并在本地对其进行了测试,以查看是否一切正常,但我遇到了问题。
java.lang.NoClassDefFoundError: org/apache/flink/ml/common/FlinkMLTools$
如我们所见,FlinkMLTools
在运行 jar 期间找不到我的代码中使用的类。我使用 Maven 3.3.3 构建了这个 jar,mvn clean install
并且我使用的是 Flink 0.9.0 版本。
第一条线索
事实是我的全球项目包含其他项目(这个推荐人是子项目之一)。这样,我必须mvn clean install
在正确项目的文件夹中启动,否则 Maven 总是会构建另一个项目的 jar(我不明白为什么)。所以我想知道是否有一种方法可以明确地告诉 maven 来构建全球项目的一个特定项目。实际上,可能路径包含在全局项目文件中FlinkMLTools
存在的链接中。pom.xml
还有其他想法吗?
scala - FlinkML:加入 LabeledVector 的数据集不起作用
我目前正在尝试加入两个数据集(flink 0.10-SNAPSHOT API 的一部分)。两个 DataSet 具有相同的形式:
我要创建的是一个新的 DataSet[(Double,Double)] 只包含两个 DataSet 的标签,即:
因此我尝试了以下命令:
但结果“加入”是空的。我错过了什么吗?
scala - 从 FlinkML 多元线性回归中提取权重
我正在运行 Flink (0.10-SNAPSHOT) 的示例多元线性回归。我不知道如何提取权重(例如斜率和截距,beta0-beta1,你想怎么称呼它们)。我在 Scala 中不是超级老手,这可能是我的一半问题。
感谢任何人可以提供的任何帮助。
maven - Flink 0.10.1 出错
在本地使用 flink 0.10.1 时,由于以下错误,我无法与 jobmanager 连接:
还有我的 pom.xml:
使用 flink 0.9.1 可以正常工作......我错过了什么?谢谢!
vector - FlinkML 0.10.1 用于训练的稀疏向量的多元线性回归
全部,
我正在尝试通过进行线性回归来测试 Flink ML 0.10.1,如下所述:
https://ci.apache.org/projects/flink/flink-docs-master/libs/ml/multiple_linear_regression.html
我使用的是 SparseVectors 而不是 DenseVector,但是在尝试训练模型时遇到了这个问题:
FlinkML MLG 不支持 SparseVectors 吗?
apache-flink - flink MultipleLinearRegression fit 需要 3 个参数
我遵循 https://ci.apache.org/projects/flink/flink-docs-release-1.0/apis/batch/libs/ml/multiple_linear_regression.html的示例, 但在示例中,拟合函数只需要一个参数,但在我的代码中,fit 需要三个参数,
mlr.fit(训练,fitParameters,fitOperation);
我认为 fitParameters 可能是 setIterations(),setStepsize() 的替代方法,但 fitOperation 是什么?
apache-flink - UnsortedGrouping 上的 apache-flink KMeans 操作
我有一个 flink DataSet(从文件中读取),其中包含来自许多不同传感器的传感器读数。我使用 flinks groupBy() 方法将数据组织为每个传感器的 UnsortedGrouping。接下来,我想以分布式方式在我的 DataSet 中的每个 UnsortedGrouping 上运行 KMeans 算法。
我的问题是,如何使用 flink 有效地实现这个功能。以下是我当前的实现:我编写了自己的 groupReduce() 方法,该方法将 flink KMeans 算法应用于每个 UnsortedGrouping。这段代码有效,但看起来很慢并且使用大量内存。
我认为这与我必须做的数据重组量有关。必须执行多次数据转换才能使代码运行,因为我不知道如何更有效地做到这一点:
- UnsortedGrouping 到 Iterable(groupReduce() 方法的开始)
- 可迭代到 LinkedList(需要这个才能使用 fromCollection() 方法)
- LinkedList 到 DataSet(需要作为 KMeans 的输入)
- 生成的 KMeans 数据集到 LinkedList(能够迭代收集器)
当然,必须有一种更有效、更高效的方法来实现这一点吗?谁能告诉我如何以一种干净有效的 flink 方式实现它?
scala - 使用 scala 在 Flink 中进行实时流预测
Flink 版本:1.2.0
Scala 版本:2.11.8
我想使用 DataStream 使用 scala 在 flink 中使用模型进行预测。我在使用 scala 的 flink 中有一个 DataStream[String],其中包含来自 kafka 源的 json 格式数据。我想使用这个数据流来预测已经训练过的 Flink-ml 模型。问题是所有的 flink-ml 示例都使用 DataSet api 进行预测。我对 flink 和 scala 相对较新,因此将不胜感激以代码解决方案形式提供的任何帮助。
输入 :
代码 :
apache-flink - 有没有 Java 语言的 Apache Flink 机器学习教程
我正在寻找一个教程,告诉我们设置一个基本的 apache flink 机器学习。当前可用 的材料是 scala 语言。