1

当前的实现涉及对大型输入事务文件进行采样,然后最终将“FP 增长算法”应用于该采样数据以进行数据挖掘。但是,它有其局限性,我想在更大范围内实现它。根据以下采样方法(基于用户响应)对事务文件进行采样:

  1. 随机抽样
  2. 系统抽样
  3. 分层抽样
  4. 整群抽样
  5. 从采样交易 (FAST) 算法中查找关联。

目标是在 Hadoop 中实现它以进行并行处理并支持大型输入数据文件。任何指针如何在 Hadoop 或任何其他开源分布式处理框架中实现这一点?

4

1 回答 1

1

这里的问题主要是算法而不是技术问题。我们需要找到算法的并行方法,然后将其转换为 MapReduce 范式。只有这样我们才能使用 Hadoop 并行运行该过程。
我认为对于您的算法相关的并行版本是:http: //infolab.stanford.edu/~echang/recsys08-69.pdf

于 2012-06-25T16:37:35.103 回答