0

我想实现结合支持向量机的凝聚聚类算法。我希望它的工作方式是这样的:

  1. 使用大量训练数据训练支持向量机分类器。将训练好的模型放在一边。训练数据实际上是一大组实体对。每个实体都是一个数字数组(双精度)。SVM 将给定的对分类为相同/不同。

  2. 给定大量实体(基本上是双值数组),通过使用经过训练的 SVM 将给定实体对分类为相同/不同,找到两个最接近的实体(数组)。如果它们相同,则继续将它们聚类。

  3. 只要我们看到集群中的每个实体都可以与另一个集群中的每个其他实体配对,就可以继续使用凝聚集群机制。

  4. 当我们发现我们有两个集群时,结束凝聚聚类机制,其中一个集群中至少存在一个实体,另一个集群中存在另一个实体,当给 SVM 时将被分类为不相同。

  5. 在输出中打印/存储输出簇。

现在,我已经在一台独立机器上使用 WEKA 的 SVM 和 Agglomerative Clusterer 完成了所有这些工作。当涉及到大数据时,我需要在 Hadoop 之上执行此操作。我知道 Mahout 包含 SVM,但它不包含 HAC。

一世。是否可以将 WEKA 与 Hadoop 一起使用?ii. 如果我打算自己在 Hadoop 中编写 HAC,如何将经过训练的 SVM 模型存储在 HDFS 中,然后将其用于凝聚集群?我熟悉 Hadoop 框架。

4

0 回答 0