我误解了逻辑回归公式推导中最小值背后的想法。
这个想法是尽可能地增加假设(即正确的预测概率尽可能接近 1),这反过来又需要尽可能地最小化成本函数 $J(\theta)$。
现在有人告诉我,要让这一切发挥作用,成本函数必须是凸的。我对凸性的理解要求没有最大值,因此只能有一个最小值,即全局最小值。真的是这样吗?如果不是,请解释为什么不。此外,如果不是这种情况,那么这意味着成本函数中可能存在多个最小值,这意味着多组参数会产生越来越高的概率。这可能吗?或者我可以确定返回的参数是指全局最小值,因此是最高概率/预测?