我们正在制定策略,分析用户对我们网站上超过 100 万件商品的“兴趣”(点击、喜欢等),以生成“相似商品”列表。
为了处理大量原始数据,我们正在学习 Hadoop、Hive 和相关项目。
我的问题是关于这个问题:Hadoop/Hive 等似乎更倾向于数据转储,其次是处理周期。据推测,处理周期的结束是对相关项目之间链接的索引图的扩展。
如果我到目前为止一切正常,在这些情况下通常如何处理数据:即
- 是否每隔一段时间重新分析原始用户数据以重新构建链接的索引图?
- 我们是否在数据进入时对其进行流式传输、分析并更新数据存储?
- 随着分析的结果数据发生变化,我们通常是逐个更新还是批量重新处理?
- Cassandra 是否比 Hive/HDFS 更好地解决了这个用例?
我希望更好地理解这种大数据处理的常用方法。