在逻辑回归中:
假设函数,
h(x) = ( 1 + exp{-wx} )^-1
其中,w - 要拟合或优化的权重/参数
成本函数(-ve 对数似然函数)如下:
对于单次培训,例如。(x,y):
l(w) = y * log ( h(x) ) + (1 - y) * log ( 1 - h(x) )
目标是在所有训练示例上最大化 l(w),从而估计 w。
问题 :
考虑这样一种情况,其中正面 (y=1) 训练示例比负面 (y=0) 训练示例多得多。
为简单起见:
如果我们只考虑正面 (y=1) 示例: 算法运行:
maximize ( l(w) )
=> maximize ( y * log ( h(x) ) )
=> maximize ( log( h(x) ) )
=> maximize ( h(x) ); since log(z) increases with z
=> maximize ( ( 1 + exp{-wx} )^-1 )
=> maximize ( wx );
since a larger wx will increase h(x) and move it closer to 1
换句话说,优化算法会尝试增加 (wx) 以便更好地拟合数据并增加似然度。
但是,算法似乎有可能以一种意想不到的方式增加(wx)但无论如何都不能改善解决方案(决策边界):
by scaling w: w' = k*w ( where k is positive constant )
我们可以在不改变我们的解决方案的情况下增加 (k*wx)。
1) 为什么这不是问题?或者这是一个问题?
2)有人可能会争辩说,在一个正面示例多于负面示例的数据集中,该算法将尝试不断增加||w||。