这个成本函数应该做你想做的事:将与组成每个子集的特征相对应的因子载荷相加。
该总和越高,仅用这些特征解释的响应变量的可变性份额就越大。如果我理解 OP,这个成本函数是 OP 中“很好地代表整个集合”的忠实翻译。
简化为代码很简单:
计算数据集的协方差矩阵(首先删除包含响应变量的列,即可能是最后一个)。如果您的数据集是mxn(列 x 行),那么这个协方差矩阵将为nxn,主对角线下方为“1”。
接下来,对这个协方差矩阵进行特征值分解;这将为您提供由该特征值贡献的响应变量中总变异性的比例(每个特征值对应于一个特征或列)。[注意,奇异值分解(SVD)通常用于这一步,但它是不必要的 - 特征值分解要简单得多,只要你的矩阵是方形的,它总是可以完成工作,协方差矩阵总是]。
您的遗传算法将在每次迭代时返回一组候选解决方案(在您的情况下为特征子集)。GA 或任何组合优化中的下一个任务是通过成本函数得分对这些候选解决方案进行排名。在您的情况下,成本函数是该子集中每个特征的特征值比例的简单总和。(我想你会想要缩放/规范化该计算,以便更高的数字最不适合。)
示例计算(使用python + NumPy):
>>> # there are many ways to do an eigenvalue decomp, this is just one way
>>> import numpy as NP
>>> import numpy.linalg as LA
>>> # calculate covariance matrix of the data set (leaving out response variable column)
>>> C = NP.corrcoef(d3, rowvar=0)
>>> C.shape
(4, 4)
>>> C
array([[ 1. , -0.11, 0.87, 0.82],
[-0.11, 1. , -0.42, -0.36],
[ 0.87, -0.42, 1. , 0.96],
[ 0.82, -0.36, 0.96, 1. ]])
>>> # now calculate eigenvalues & eivenvectors of the covariance matrix:
>>> eva, evc = LA.eig(C)
>>> # now just get value proprtions of each eigenvalue:
>>> # first, sort the eigenvalues, highest to lowest:
>>> eva1 = NP.sort(eva)[::-1]
>>> # get value proportion of each eigenvalue:
>>> eva2 = NP.cumsum(eva1/NP.sum(eva1)) # "cumsum" is just cumulative sum
>>> title1 = "ev value proportion"
>>> print( "{0}".format("-"*len(title1)) )
-------------------
>>> for row in q :
print("{0:1d} {1:3f} {2:3f}".format(int(row[0]), row[1], row[2]))
ev value proportion
1 2.91 0.727
2 0.92 0.953
3 0.14 0.995
4 0.02 1.000
所以它是上面的第三列值(每个特征一个)被求和(有选择地,取决于您正在使用成本函数评估的给定子集中存在哪些特征)。