1

我们目前正在尝试基于我们的用户数据库(几百万个人资料)创建一些非常基本的角色。我们的目标是在这个阶段找出我们用户的特征,例如他们的长相和他们在寻找什么,并创建几个“典型”用户配置文件。

我相信实现这一目标的最佳方法是运行聚类分析以找到用户之间的相似之处。

然而,最大的障碍是如何到达那里。我们正在 Hadoop 环境中跟踪我们的数据,有人告诉我,这可以通过我们的工具实现。

我已经熟悉了该主题的理论,并且知道它可以在例如 SPSS 中完成(很难使用并且仅限于大型数据集的样本)。

最大的问题:是否可以在 Hadoop 环境中执行一种或不同类型的集群分析,然后像在 SPSS 中一样可视化结果?我的理解是,我们需要运行多种类型的分析,以找到对数据进行聚类的最佳方法,在聚类的距离测量方面也是如此。

我没有在互联网上找到任何关于此的信息,所以我想知道这是否可能,无需大量的编程工作(意味着从字面上实现例如 SPSS 中可用的所有标准工具:Dendrograms,不同的结果表和聚类图等)。

任何输入都会很受欢迎。谢谢。

4

0 回答 0