问题标签 [als]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
67 浏览

r - 用sparkR ALS推荐几款

我正在关注 ALS 的 sparkR 示例:

哪个工作正常,但我遇到以下问题:

如何指定要推荐的项目数量?

在python示例中很清楚:

但是对于 sparkR,我没有发现。

另外,我不能更改为 sparklyr,必须使用 sparkR

0 投票
2 回答
93 浏览

scala - 具有案例等级评级的 ALS 训练数据

我正在使用亚马逊消费者评论数据集。我的目标是应用协同过滤。我成功地将自己添加为用户并添加了用户评分。

我想创建一个模型。我想使用 ALS,但我有一个问题,ALS.train()因为我没有使用默认评级 (Int,Int, Double); case class Rating (String, String, Int) 代替。我尝试将我的 String 值转换为 Int 并将评级值转换为 Double,但在转换userID为 Int 时遇到了问题,因为 Amazon 的用户 ID 很像"AVpgNzjwLJeJML43Kpxn"并且prodcutID很像"B00QWO9P0O,B00LH3DMUO"" "包含在内)。如何克服这个问题?

代码CollabarativeFiltering

代码User_Ratings

问题是当我使用:

它给:

预期 org.apache.spark.mllib.recommendation.RDD[Rating] 发现 RDD[User_Ratings.Rating]

我想使用 ALS 来训练我的 RDD,但不能。如果不可能,是否有其他方法可以训练我的数据向用户推荐类似产品?

0 投票
0 回答
38 浏览

apache-spark - 在放入 ALS 模型之前,我们是否需要对隐式数据进行标准化?如果是这样,怎么做?

我正在使用隐式数据(零售交易数据 - 将购买的单位数量作为隐式数据)在 Pyspark 中创建一个 ALS 模型。

在将数据投入模型之前,我们是否需要对数据进行某种标准化/规范化?如果不是,它如何处理物品被超买或用户是超买者的情况。例如。牛奶比电视买的多,User1比User2买的少?

任何指针都会有所帮助。谢谢

0 投票
1 回答
139 浏览

apache-flink - ALS 实时推荐 Apache Flink

我想使用 ALS 算法在 Apache Flink 上实现实时推荐。

该模型可以预先使用 Batch 进行训练,然后加载到 Flink 中。然后应处理输入数据流并将其用于预测。

自 Flink 1.9 起不再包含库 FlinkMl。除此之外,还有很多为使用 Apache Flink 进行机器学习而设计的库。

为此,我需要一个帮助我实现这个项目的起点。

0 投票
0 回答
33 浏览

python - pyspark ALS 推荐系统错误 - SparkContext 已关闭;迷失模式;

我在 pyspark 中搜索 ALS 推荐系统的最佳参数,它一直显示错误消息,例如“ SparkContext has been shutdown”/“Lost task”/“Bad mod”/“ BlockManagerMasterEndpoint: No more replicas available for...”

我尝试添加检查点,但运行几个小时后仍然失败。

我使用的代码:

有人有类似的问题吗?任何建议,将不胜感激!

谢谢!

0 投票
0 回答
66 浏览

python - 如何让推荐系统的 PySpark ALS 返回测试集数据?

我试图从这个 Kaggle 中模仿 PySpark ALS 代码 https://www.kaggle.com/vikashrajluhaniwal/matrix-factorization-recommendation-using-pyspark

我注意到当您使用代码时

model.recommendForAllUsers(3).show()

输出仅包含编号。训练集中的用户数(58971 个用户)。

我想知道您如何获得测试集(其他44819个用户)的推荐??我已经尝试搜索其他教程,但我仍然不知道如何获得完整数据集的预测。

还是我只是使用最佳模型的参数,然后再次训练整个数据集而不进行拆分?

非常感谢您的回答。

0 投票
0 回答
120 浏览

pyspark - 如何扩展基于 pyspark 的 ALS 模型?

我一直在尝试使用 ALS(交替最小二乘模型)构建推荐引擎。不幸的是,该模型需要很长时间才能适应。大约 10k 用户和 50k 产品超过 20-30 分钟。我正在研究 apache spark(120 GB ram + 磁盘空间)。我正在为我的模型执行以下步骤。

  1. 收集评分数据
  2. 将数据转换为用户-项目矩阵(用户对每个已评分的产品进行评分,如果产品尚未评分,则为 0。)
  3. 拟合 ALS 模型 pyspark.mllib

我无法对模式进行超调,因为对于一个组合,大约需要 30 分钟,如果我正在运行网格搜索,那么一小时后,它要么显示会话过期,要么显示会话无效。

我已经尝试了一切以使其快速。但是没有什么效果那么好

我会请求帮助我扩展这个模型。

0 投票
0 回答
20 浏览

machine-learning - PySpark ALS 模型中的自定义 ColdStartStrategy

我正在使用 movielens-100k 数据集。目前,PySpark ALS 模型中的 ColdStartStrategy 仅支持 NaN 和 Drop。但我想有一种自定义的方式来做到这一点。我想用该用户对该电影的平均评分填充 Nan 值。

这是我drop用作冷启动策略的代码。如何使用平均值而不是删除行?

0 投票
0 回答
12 浏览

machine-learning - 我是否正确实施 AlternatingLeastSquares?

我有一个 ALS 示例正在工作并提供看似准确的结果。让我感到困惑的是我在网上看到的其他例子,它们的做法有点不同。

例如https://gist.github.com/himanshk96/21594b9f49a8b3060ff1f00d0a0d8ec5,适合:

sparse_item_user = sparse.csr_matrix((data['event'].astype(float), (data['item_id'], data['visitor_id'])))

并调用推荐方法:

sparse_user_item = sparse.csr_matrix((data['event'].astype(float), (data['visitor_id'], data['item_id'])))

另一方面,我使用以下方法来拟合和调用推荐方法:

sparse_customer_item = sparse.csr_matrix((grouped_df['Quantity'].astype(float), (grouped_df['customer_id'], grouped_df['item_id'])))

我尝试了另一种方法,但结果不准确。难道我做错了什么?我的代码如下。