0

在用于 MICROARRAY DATA 的数据挖掘软件 WEKA 中,如何从现有数据集中删除冗余元组?删除冗余的代码应该在 JAVA 中。

即,数据集包含诸如

H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0

这里的元组 1,4,5 是多余的。

代码应返回以下 REDUNDANCY REMOVED 数据集...

H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0
4

1 回答 1

2

您可以使用实现Set的类之​​一,例如java.util.HashSet

您可以将数据集加载到 Set 中,然后通过 Set.toArray() 方法转换为数组或遍历集合来提取它们。

Set<Tuple> tupleSet = new HashSet<Tuple>();

      
对于(元组元组:tupleList){    
    tupleSet.add(tuple);    
}  

// 现在你所有的元组都是唯一的  
对于(元组元组:tupleSet){    
    System.out.println("元组:" + 元组);  
}  
于 2010-01-12T04:54:22.427 回答