我的代码:
from numpy import *
def pca(orig_data):
data = array(orig_data)
data = (data - data.mean(axis=0)) / data.std(axis=0)
u, s, v = linalg.svd(data)
print s #should be s**2 instead!
print v
def load_iris(path):
lines = []
with open(path) as input_file:
lines = input_file.readlines()
data = []
for line in lines:
cur_line = line.rstrip().split(',')
cur_line = cur_line[:-1]
cur_line = [float(elem) for elem in cur_line]
data.append(array(cur_line))
return array(data)
if __name__ == '__main__':
data = load_iris('iris.data')
pca(data)
虹膜数据集:http: //archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
输出:
[ 20.89551896 11.75513248 4.7013819 1.75816839]
[[ 0.52237162 -0.26335492 0.58125401 0.56561105]
[-0.37231836 -0.92555649 -0.02109478 -0.06541577]
[ 0.72101681 -0.24203288 -0.14089226 -0.6338014 ]
[ 0.26199559 -0.12413481 -0.80115427 0.52354627]]
期望的输出:
特征值 -[2.9108 0.9212 0.1474 0.0206]
主成分 -Same as I got but transposed
好吧,我猜
另外,linalg.eig 函数的输出是什么?根据维基百科上的 PCA 描述,我应该这样做:
cov_mat = cov(orig_data)
val, vec = linalg.eig(cov_mat)
print val
但它与我在网上找到的教程中的输出并不真正匹配。另外,如果我有 4 个维度,我认为我应该有 4 个特征值,而不是像 eig 给我的 150。难道我做错了什么?
编辑:我注意到这些值相差 150,这是数据集中元素的数量。此外,特征值应该相加等于维数,在这种情况下为 4。我不明白为什么会发生这种差异。如果我简单地将特征值除以len(data)
我可以得到我想要的结果,但我不明白为什么。无论哪种方式,特征值的比例都不会改变,但它们对我很重要,所以我想了解发生了什么。