本文讨论使用梯度下降求解cost function。

Gradient Descent

前文解释了logistic regression的cost function:

目标是通过求cost function的极小值来得到

Andrew指出这个(1)式cost function是bowl shape,所以可以用梯度下降法求极小值。

先考虑一个二维的例子:

Fig.1 二维梯度下降
Fig.1 二维梯度下降

J(w)极小值在图中红点处,求极小值首先initialize w为一初始值:,然后不断迭代w:

其中叫做learning rate

Intuitively理解(2)式:

Case 1:考虑如果在极值右侧,导数,所以不断迭代减小,也不断逼近极值。

Case 2:考虑如果在极值左侧,导数,所以不断迭代增大,也不断逼近极值。

经过多次迭代后,最后收敛在红点处,也就是极值点。

类似的,因为(1)式logistic regression的cost function 是一个bowl shape,也同样可以用梯度下降法求极小值,迭代:

同样是learning rate

因为包含多个参数,所以是求偏导数。通过多次迭代,计算出的极小值,也得到了在极值点相应的

(Updated: 2/12/19)