对某些人来说,这可能是一个有趣的问题:
给定:存储在SQL Server (RDBMS) 中的 2-3 TB 数据,认为它类似于亚马逊的数据,即用户 -> 他们看到/点击查看的内容 -> 他们购买了什么
任务:制作一个推荐引擎(如亚马逊),向用户显示,购买此产品的客户也购买了此产品->如果您喜欢此产品,那么您可能会喜欢此产品->(也)一种数据挖掘来预测未来的购买习惯好(数据挖掘)。依此类推,基本上是一个reco引擎。
问题:由于数据量巨大(5-6 年的用户习惯数据),我认为 Hadoop 是最终的解决方案。现在的问题是,要使用哪些技术工具组合?
HDFS:底层文件系统
HBASE/HIVE/猪:?
Mahout:为了运行一些算法,我假设使用 Map-Reduce(遗传、集群、数据挖掘等)
- 我错过了什么?为所有这些处理加载 RDBMS 数据怎么样?(用于 Hadoop 的 Sqoop?)
- 在这一切结束时,我得到一个结果列表(reco's),或者有一种方法可以直接查询它并将其报告给我在.NET中构建的前端?
我认为这个问题的答案,对于像我这样想在未来开始他们的 hadoop 实验的许多人来说可能是一个很好的讨论。