-1

我有一个键值对列表。对于每个键,我想看看值的唯一性。例如,对于特定的键 k1,所有值可能都相同。(最好的情况)。对于键 k2,一半的值是一种类型,另一半是不同的。. . 同样,对于键 kx,没有一个值匹配(最坏情况)。

我想根据上述内容为这些键中的每一个赋予等级(或百分比,等等)并进行最终排序,以便我可以过滤掉具有许多不同值的那些(假设高于预定义的阈值等级或百分比)。

我不知何故认为这与我在数据挖掘课程中学到的一些概念有些相关,但无法有效回忆。

谢谢。

4

2 回答 2

-1

在来自http://en.wikipedia.org/wiki/Association_rule_learning的数据挖掘术语中,您可以将索引视为预测值的一种方式,在这种情况下,您可能对置信度感兴趣 - 最常见值的百分比对于那个索引。您还可以查看两个随机选择的值相同的概率,这将是值频率的平方和,或者http://en.wikipedia.org/wiki/Shannon_entropy - 这将有类似的性质,但涉及取对数。

于 2012-05-19T10:00:25.497 回答
-1

您也许可以为此使用一些信息论

对于每个键,您可以计算值的。熵越高,键的值越多样化。您可以使用它来对键进行排名。

以下文章讨论了一些相关主题:计算数据挖掘的熵

于 2012-05-19T10:08:34.057 回答