我有一个键值对列表。对于每个键,我想看看值的唯一性。例如,对于特定的键 k1,所有值可能都相同。(最好的情况)。对于键 k2,一半的值是一种类型,另一半是不同的。. . 同样,对于键 kx,没有一个值匹配(最坏情况)。
我想根据上述内容为这些键中的每一个赋予等级(或百分比,等等)并进行最终排序,以便我可以过滤掉具有许多不同值的那些(假设高于预定义的阈值等级或百分比)。
我不知何故认为这与我在数据挖掘课程中学到的一些概念有些相关,但无法有效回忆。
谢谢。
我有一个键值对列表。对于每个键,我想看看值的唯一性。例如,对于特定的键 k1,所有值可能都相同。(最好的情况)。对于键 k2,一半的值是一种类型,另一半是不同的。. . 同样,对于键 kx,没有一个值匹配(最坏情况)。
我想根据上述内容为这些键中的每一个赋予等级(或百分比,等等)并进行最终排序,以便我可以过滤掉具有许多不同值的那些(假设高于预定义的阈值等级或百分比)。
我不知何故认为这与我在数据挖掘课程中学到的一些概念有些相关,但无法有效回忆。
谢谢。
在来自http://en.wikipedia.org/wiki/Association_rule_learning的数据挖掘术语中,您可以将索引视为预测值的一种方式,在这种情况下,您可能对置信度感兴趣 - 最常见值的百分比对于那个索引。您还可以查看两个随机选择的值相同的概率,这将是值频率的平方和,或者http://en.wikipedia.org/wiki/Shannon_entropy - 这将有类似的性质,但涉及取对数。