我想将社交网络图中的一些节点指标组合成一个值,以便对节点进行排序:
in_degree + betweenness_centrality = informal_power_index
问题是in_degree
和betweenness_centrality
是在不同的尺度上测量的,比如 0-15 vs 0-35000 并遵循幂律分布(至少绝对不是正态分布)
有没有一种很好的方法来重新调整变量,以便在确定 时一个不会支配另一个informal_power_index
?
三种明显的方法是:
- 标准化变量(减去
mean
和除以stddev
)。这似乎会过度压缩分布,隐藏长尾值与峰值附近值之间的巨大差异。 min(variable)
通过减去和除以将变量重新缩放到范围 [0,1]max(variable)
。这似乎更接近于解决问题,因为它不会改变分布的形状,但也许它不会真正解决问题?特别是手段会有所不同。- 通过将每个值除以 来均衡均值
mean(variable)
。这不会解决尺度上的差异,但也许平均值对于比较更重要?
还有其他想法吗?