本文讨论计算logistic regression的cost function。

Lost Function

前文提到Logistic Regression:

所以目标是通过图片集训练model求wb,即有

希望训练,使得:

即希望的差距尽可能小。

这里就提出了Lost(error) function的概念,用于measure两者的差距。

在统计上,一个常用的方法是squre error:

但是Andrew提到:如果用squre error作为lost function的话,在求optimization的时候会遇到convexnon-convex的问题。

因而对于Logistic Regression,一个更适合的lost function为:

Intuitive的理解(1)式:

Case 1: 如果,那么(1)式变为:

因为希望的差距尽可能小(求lost function的极小值),所以希望(2)式结果尽可能的小,因而要尽可能大,那么也要尽可能大,即close to 1.

Case 2: 如果,那么(1)式变为:

同样希望(3)式结果尽可能小,所以要尽可能大,因而 也要尽可能大,就要尽可能小,close to 0.

综上两种情况:当Lost Function取得极小值的时候,的差距最小。

Cost Function

以上Lost Function的讨论只考虑了单个sample(即一幅图片)的情况,那么如何处理整个图片集(多个samples)的情况呢?

这里就引入了Cost function。简单来讲:Cost Function就是单个sample Lost Function的算术平均:

通过求(4)式Cost Function 在m个samples(图片集)下的极小值,得到对应的。即训练出了Logistic Regression model:

使得:

(Updated: 2/12/19)