java - 在 Hadoop 中实现采样和数据挖掘算法

Question

当前的实现涉及对大型输入事务文件进行采样，然后最终将“FP 增长算法”应用于该采样数据以进行数据挖掘。但是，它有其局限性，我想在更大范围内实现它。根据以下采样方法（基于用户响应）对事务文件进行采样：

随机抽样
系统抽样
分层抽样
整群抽样
从采样交易 (FAST) 算法中查找关联。

目标是在 Hadoop 中实现它以进行并行处理并支持大型输入数据文件。任何指针如何在 Hadoop 或任何其他开源分布式处理框架中实现这一点？

score 1 · Accepted Answer

这里的问题主要是算法而不是技术问题。我们需要找到算法的并行方法，然后将其转换为 MapReduce 范式。只有这样我们才能使用 Hadoop 并行运行该过程。
我认为对于您的算法相关的并行版本是：http: //infolab.stanford.edu/~echang/recsys08-69.pdf

java - 在 Hadoop 中实现采样和数据挖掘算法

1 回答 1

Related

Reference