java - 如何使用 java 编程删除微阵列数据中的冗余元组？

Question

在用于 MICROARRAY DATA 的数据挖掘软件 WEKA 中，如何从现有数据集中删除冗余元组？删除冗余的代码应该在 JAVA 中。

即，数据集包含诸如

H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0
H,A,X,1,3,1,1,1,1,1,0,0,0

这里的元组 1,4,5 是多余的。

代码应返回以下 REDUNDANCY REMOVED 数据集...

H,A,X,1,3,1,1,1,1,1,0,0,0
D,R,O,1,3,1,1,2,1,1,0,0,0
C,S,O,1,3,1,1,2,1,1,0,0,0

score 2 · Accepted Answer

您可以使用实现Set的类之一，例如java.util.HashSet。

您可以将数据集加载到 Set 中，然后通过 Set.toArray() 方法转换为数组或遍历集合来提取它们。

Set<Tuple> tupleSet = new HashSet<Tuple>();

      
对于（元组元组：tupleList）{    
    tupleSet.add(tuple);    
}  

// 现在你所有的元组都是唯一的  
对于（元组元组：tupleSet）{    
    System.out.println("元组：" + 元组);  
}

1 回答 1