嗨,我正在尝试使用 Spark 构建推荐系统
我有一个包含用户电子邮件和电影评分的数据框。
df = pd.DataFrame(np.array([["aa@gmail.com",2,3],["aa@gmail.com",5,5],["bb@gmail.com",8,2],["cc@gmail.com",9,3]]), columns=['user','movie','rating'])
sparkdf = sqlContext.createDataFrame(df, samplingRatio=0.1)
user movie rating
aa@gmail.com 2 3
aa@gmail.com 5 5
bb@gmail.com 8 2
cc@gmail.com 9 3
我的第一个疑问是,pySpark MLlib 不接受电子邮件,我是对的吗?因为这个我需要通过主键更改电子邮件。
我的方法是创建一个临时表,选择不同的用户,现在我想添加一个带有行号的新列(这个数字将是每个用户的主键。
sparkdf.registerTempTable("sparkdf")
DistinctUsers = sqlContext.sql("Select distinct user FROM sparkdf")
我有的
+------------+
| user|
+------------+
|bb@gmail.com|
|aa@gmail.com|
|cc@gmail.com|
+------------+
我想要的是
+------------+
| user| PK
+------------+
|bb@gmail.com| 1
|aa@gmail.com| 2
|cc@gmail.com| 3
+------------+
接下来我将进行连接并获得最终数据框以在 MLlib 中使用
user movie rating
1 2 3
1 5 5
2 8 2
3 9 3
问候并感谢您的宝贵时间。