我正在尝试站立/规范一些数据:
数据包括两个温度读数,一个来自传感器,另一个来自水银温度计。
像这样:
SENSOR THERM
32.69 31.25
32.00 30.25
31.94 30.50
31.87 30.50
31.44 29.50
...
我想创建一个回归模型,为此我需要将数据标准化/标准化
我目前正在做的是:
- 找到传感器数据的平均值
- 找到热数据的平均值
- 计算传感器数据的标准差
- 计算热数据的标准差
- 创建一个新列表,并将标准化值添加到该列表中
这就是事情变得棘手的地方。
创建这个新列表后,我想对其进行规范化,使其具有 0-1 的值,我这样做的方式是从标准化数据(传感器和 Therm 一起)中获取最低和最高值。但这似乎有点奇怪。
这是到目前为止的代码:
data = [[32.69, 31.25],
[32.00, 30.25],
[31.94, 30.50],
[31.87, 30.50],
[31.44, 29.50]]
# take mean from data
mean_x = sum(x for x,y in data)/len(data)
mean_y = sum(y for x,y in data)/len(data)
# compute standard deviation
std_d_x = (sum((x-mean_x)**2 for x,y in data)/len(data))**(1/2.0)
std_d_y = (sum((y-mean_y)**2 for x,y in data)/len(data))**(1/2.0)
stand_data = []
# get standardized values
for x, y in data:
stand_x = (x - mean_x) / std_d_x
stand_y = (y - mean_y) / std_d_y
stand_data.append((stand_x, stand_y))
# find min/max value from the whole data
min_v = min(min([x,y]) for x, y in stand_data)
max_v = max(max([x,y]) for x, y in stand_data)
for i, (stand_x, stand_y) in enumerate(stand_data):
# normalize it
norm_x = (stand_x - min_v)/(max_v - min_v)
norm_y = (stand_y - min_v)/(max_v - min_v)
# display
raw = "%.2f, %.2f"%(data[i][0], data[i][1])
stand = "%.2f, %.2f"%(stand_x, stand_y)
norm = "%.2f, %.2f"%(norm_x, norm_y)
print("{raw} -> {stand} -> {norm}".format(**locals()))
结果如下:
Input data -> standardized -> normalized
32.69, 31.25 -> 1.74, 1.51 -> 1.00, 0.93
32.00, 30.25 -> 0.03, -0.27 -> 0.49, 0.40
31.94, 30.50 -> -0.12, 0.18 -> 0.44, 0.53
31.87, 30.50 -> -0.29, 0.18 -> 0.39, 0.53
31.44, 29.50 -> -1.36, -1.60 -> 0.07, 0.00
我的问题是:我应该如何标准化这些数据?我应该从整个数据(传感器和 Therm 一起)中获取平均值/偏差吗?还是我应该分开服用?关于标准化,我应该按照我正在做的方式来做,还是分开做(这似乎给出了奇怪的值)?