我有一家航空公司旅行社的用户数据,从这些数据中我想为用户获取某些实体的最优选值。我的数据集的格式如下 -
userId From TO Meal Carrier Travel type
MT001 London Abu Dhabi Non Veg Lufthansa International
MT001 Abu Dhabi Beijing Veg Lufthansa International
MT001 New York Chicago Non Veg American Airlines Domestic
MT002 New York Texas Veg American Airlines Domestic
现在我想得到用户 MT001 对餐、载体列的偏好值,并对这个用户进行分类。我知道我们可以使用 SQL 获取这些值,但是可以使用 mahout 框架来实现吗?我不想实时获得结果,我正在考虑类似批处理作业的东西,它预处理数据并将结果存储在我们可以立即获取结果的某个地方。
我知道 mahout 支持分类,我们可以使用基于项目的推荐之类的方法获得首选值。我也计划转向 hadoop,所以在这种情况下,mahout 的选择会有多好。