梯度下降:叠代法的一種-中文百科頻道

簡介

梯度：對于可微的數量場，以為分量的向量場稱為f的梯度或斜量。

梯度下降法(gradient descent)是一個最優化算法，常用于機器學習和人工智能當中用來遞歸性地逼近最小偏差模型。

顧名思義，梯度下降法的計算過程就是沿梯度下降的方向求解極小值（也可以沿梯度上升方向求解極大值）。

其叠代公式為，其中代表梯度負方向，表示梯度方向上的搜索步長。梯度方向我們可以通過對函數求導得到，步長的确定比較麻煩，太大了的話可能會發散，太小收斂速度又太慢。一般确定步長的方法是由線性搜索算法來确定，即把下一個點的坐标看做是ak+1的函數，然後求滿足f(ak+1)的最小值的ak+1即可。

因為一般情況下，梯度向量為0的話說明是到了一個極值點，此時梯度的幅值也為0.而采用梯度下降算法進行最優化求解時，算法叠代的終止條件是梯度向量的幅值接近0即可，可以設置個非常小的常數阈值。

舉一個非常簡單的例子，如求函數的最小值。

利用梯度下降的方法解題步驟如下：

1、求梯度，

2、向梯度相反的方向移動，如下

，其中，為步長。如果步長足夠小，則可以保證每一次叠代都在減小，但可能導緻收斂太慢，如果步長太大，則不能保證每一次叠代都減少，也不能保證收斂。

3、循環叠代步驟2，直到的值變化到使得在兩次叠代之間的差值足夠小，比如0.00000001，也就是說，直到兩次叠代計算出來的基本沒有變化，則說明此時已經達到局部最小值了。

4、此時，輸出，這個就是使得函數最小時的的取值。

MATLAB如下。

%% 最速下降法圖示

% 設置步長為0.1，f_change為改變前後的y值變化，僅設置了一個退出條件。

syms x;f=x^2;

step=0.1;x=2;k=0; %設置步長,初始值,叠代記錄數

f_change=x^2; %初始化差值

f_current=x^2; %計算當前函數值

ezplot(@(x,f)f-x.^2) %畫出函數圖像

axis([-2,2,-0.2,3]) %固定坐标軸

hold on

while f_change>0.000000001 %設置條件，兩次計算的值之差小于某個數，跳出循環

x=x-step*2*x; %-2*x為梯度反方向，step為步長，！最速下降法！

f_change = f_current - x^2; %計算兩次函數值之差

f_current = x^2 ; %重新計算當前的函數值

plot(x,f_current,'ro','markersize',7) %标記當前的位置

drawnow;pause(0.2);

k=k+1;

end

hold off

fprintf('在叠代%d次後找到函數最小值為%e，對應的x值為%en',k,x^2,x)

梯度下降法處理一些複雜的非線性函數會出現問題，如Rosenbrock函數：,其最小值在處，函數值為。但是此函數具有狹窄彎曲的山谷，最小點就在這些山谷之中，并且谷底很平。優化過程是之字形的向極小值點靠近，速度非常緩慢。

靠近極小值時收斂速度減慢。

直線搜索時可能會産生一些問題。

可能會“之字形”地下降。