pandas - Pandas 数据框将特征划分为高相关性组

Question

我有一个包含 280 多个功能的数据框。我运行相关图来检测高度相关的特征组：现在，我想将特征划分为组，这样每个组都将成为“红色区域”，这意味着每个组都将具有相关性 > 0.5 的特征彼此。

怎么做到呢？

谢谢

score 1 · Accepted Answer

免责声明：

此解决方案未解决可视化问题。只找到组。
众所周知，该解决方案是 NP 难的，因此请注意效率问题。

理论

该问题本质上是图论中的一个派系问题，这意味着在给定图中找到所有完整的子图（节点> 2）。

想象一个图，所有特征都是节点，满足的特征对corr > 0.5是边。然后查找请求的所有“组”的任务可以简单地转换为“查找图中的所有完整子图”。

代码

该代码使用networkx.algorithms.find_cliques进行搜索任务，根据文档实现Bron–Kerbosch 算法。

代码由两部分组成。第一部分使用np.triu（从这篇文章修改）提取边缘，第二部分将边缘列表馈送到networkx.

相关矩阵

特征 [A,B,C] 和 [C,D,E] 分别密切相关，但在 [A,B] 和 [D,E] 之间不相关。

np.random.seed(111)  # reproducibility
x = np.random.normal(0, 1, 100)
y = np.random.normal(0, 1, 100)
a = x
b = x + np.random.normal(0, .5, 100)
c = x + y
d = y + np.random.normal(0, .5, 100)
e = y + np.random.normal(0, .5, 100)

df = pd.DataFrame({"A":a, "B":b, "C":c, "D":d, "E":e})
corr = df.corr()

corr
Out[24]: 
          A         B         C         D         E
A  1.000000  0.893366  0.677333 -0.078369 -0.090510
B  0.893366  1.000000  0.577459 -0.072025 -0.079855
C  0.677333  0.577459  1.000000  0.587695  0.579891
D -0.078369 -0.072025  0.587695  1.000000  0.777803
E -0.090510 -0.079855  0.579891  0.777803  1.000000

第1部分

# keep only upper triangle elements (excluding diagonal elements)
mask_keep = np.triu(np.ones(corr.shape), k=1).astype('bool').reshape(corr.size)
# melt (unpivot) the dataframe and apply mask
sr = corr.stack()[mask_keep]
# filter and get names
edges = sr[sr > 0.5].reset_index().values[:, :2]

edges
Out[25]: 
array([['A', 'B'],
       ['A', 'C'],
       ['B', 'C'],
       ['C', 'D'],
       ['C', 'E'],
       ['D', 'E']], dtype=object)

第2部分

import networkx as nx
g = nx.from_edgelist(edges)
ls_cliques = []
for clique in nx.algorithms.find_cliques(g):
    ls_cliques.append(clique)

# result
ls_cliques
Out[26]: [['C', 'A', 'B'], ['C', 'D', 'E']]

pandas - Pandas 数据框将特征划分为高相关性组

1 回答 1

理论

代码

Related

Reference