ディープラーニング(深層学習)を理解してみる(勾配降下法：計算方法)

はじめに

幾つかの人工知能関連の本やWebサイトを見ても、数式やプログラムのソースリストは記載されていても、数学が苦手な自分が理解できるようになるまでの説明が無い、そんな中でも下記3つの本(Kindle)がまだ理解できそうな感じで参考になりそうである。

基礎的な知識から、やっと実際の計算方法に入っていきます。

勾配降下法

関数 $z=x^2 + y^2$ について、その最小値を与える $x$ と $y$ の値を勾配降下法で求めてみます。
ちなみに、正解は $(x, y)=(0, 0)$ です。
f:id:Yaju3D:20171028224142p:plain

最初に勾配を求めておきましょう。
前回記事の偏微分で説明したように、関数 $z=x^{2} + y^{2}$ を偏微分すると指数を係数にした $\displaystyle\frac{\partial z}{\partial x}=2x$ 、 $\displaystyle\frac{\partial z}{\partial y}=2y$ となります。

①勾配式　 $\displaystyle\left(\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y} \right) = (2x, 2y)$

それでは、ステップを追って計算を進めます。

１.初期設定

初期位置と学習係数 $\eta$ を適当に与えます。
今回は初期位置を(3.00,2.00)、学習係数 $\eta = 0.1$ とします。

No	位	置	勾	配	変位ベ	クトル	関数値
i	$x_i$	$y_i$	$\partial z / \partial x$	$\partial z / \partial y$	$\Delta x$	$\Delta y$	$z$
0	3.00	2.00

２．変位ベクトルを算出

現在位置 $(x_i, y_i)$ に対して、勾配式から算出し、勾配降下法の基本式から変位ベクトル $\Delta x = (\Delta x_i, \Delta y_i)$ を求めます。
前回記事の勾配降下法に適用で、2変数関数 $z=f(x,y)$ の勾配降下法の基本式は次のように表しました。
基本式 $\displaystyle({\Delta x}, {\Delta y}) = -\eta\nabla f(x,y)$

これに①勾配式を当てはめたのが次の式となります。「 $\cdot$ 」は掛け算の意味です。
②変位ベクトル $(\Delta x_i, \Delta y_i) = - \eta(2x, 2y) = (- \eta\cdot2x, - \eta\cdot2y)$

No	位	置	勾	配	変位ベ	クトル	関数値
i	$x_i$	$y_i$	$\partial z / \partial x$	$\partial z / \partial y$	$\Delta x$	$\Delta y$	$z$
0	3.00	2.00	6.00	4.00	-0.60	-0.40	13.00

各計算結果の求め方

勾配
$\partial z / \partial x = 2 \cdot x_0 = 2 \times 3.00 = 6.00$
$\partial z / \partial y = 2 \cdot y_0 = 2 \times 2.00 = 4.00$
変位ベクトル
$\Delta x = - \eta \cdot \partial z / \partial x = -0.1 \times 6.00 = -0.60$
$\Delta y = - \eta \cdot \partial z / \partial y = -0.1 \times 4.00 = -0.40$
関数値
$z = x_0^2 + y_0^2 = 3.00^2 + 2.00^2 = 9.00 + 4.00 = 13.00$

３．位置を更新

勾配降下法に従って、現在位置 $(x_i, y_i)$ から移動先 $(x_{i+1}, y_{i+1})$ の点を次の式から求めます。
②移動先 $(x_{i+1}, y_{i+1}) = (x_i, y_i) + (\Delta x_i, \Delta y_i)$

No	位	置	勾	配	変位ベ	クトル	関数値
i	$x_i$	$y_i$	$\partial z / \partial x$	$\partial z / \partial y$	$\Delta x$	$\Delta y$	$z$
0	3.00	2.00	6.00	4.00	-0.60	-0.40	13.00
1	2.40	1.60

移動先
$x_1 = x_0 + \Delta x_0 = 3.00 + (-0.60) = 2.40$
$y_1 = y_0 + \Delta y_0 = 2.00 + (-0.40) = 1.60$

４．２と３の繰り返し

２と３の繰り返し(6～27は省略)、30回繰り返したときの座標 $(x_{30}, y_{30})$ の値です。
正解の $(x, y) = (0, 0)$ と一致します。

No	位	置	勾	配	変位ベ	クトル	関数値
i	$x_i$	$y_i$	$\partial z / \partial x$	$\partial z / \partial y$	$\Delta x$	$\Delta y$	$z$
0	3.00	2.00	6.00	4.00	-0.60	-0.40	13.00
1	2.40	1.60	4.80	3.20	-0.48	-0.32	8.32
2	1.92	1.28	3.84	2.56	-0.38	-0.26	5.32
3	1.54	1.02	3.07	2.05	-0.31	-0.20	3.41
4	1.23	0.82	2.46	1.64	-0.25	-0.16	2.18
5	0.96	0.66	1.97	1.31	-0.20	-0.13	1.40
28	0.01	0.00	0.01	0.01	0.00	0.00	0.00
29	0.00	0.00	0.01	0.01	0.00	0.00	0.00
30	0.00	0.00	0.01	0.00	0.00	0.00	0.00

※Excel計算で小数誤差により微妙に値が違います。

バイアスについて

バイアス(bias)とは、一般に真値からの偏り、つまり系統的な誤差を指す。

切片(せっぺん)

ニューラルネットワークのパラメーターは重みとバイアスがセットとなります。
バイアスがイメージしやすいものとして、回帰直線があります。
f:id:Yaju3D:20171105230836p:plain
回帰直線は次のような1次式で表現されます。
回帰方程式 $y = ax + b$
f:id:Yaju3D:20171106001201p:plain
a を回帰係数(傾き)、bを切片の呼びます。切片が無いと必ず原点を通すことになってしまいます。
傾きが求まったところで切片で上下位置の調整をします。この切片がバイアスのことになります。

閾値(しきいち)

f:id:Yaju3D:20170528144340p:plain f:id:Yaju3D:20170528154127p:plain
左図が本物の神経細胞(ニューロン) で、右図が形式ニューロンです。
簡単に説明すると、入力が2つあり各入力に対して重みが掛け算され、その値が閾値を超えれば出力は「1」、そうでなければ出力は「0」となります。たとえば、入力が(1,0)、重みが(0.5, 0.7)だとすると、1×0.5 ＋ 0×0.7 ＝ 0.5 を計算して閾値と比較します。
閾値未満だと出力無し(発火なし)、閾値を超えると出力有り(発火あり)となります。

出力信号無し $(y=0):w_1x_1+w_2x_2 \lt \theta$
出力信号有り $(y=1):w_1x_1+w_2x_2 \geqq \theta$

ここで $\theta$ はニューロン固有の閾値です。 $\theta$ を左に移行させた発火の式は次のように表現することができます。
発火の式 $y=a(w_1x_1+w_2x_2 - \theta)$
※ $a$ は活性化関数となります。

活性化関数にシグモイド曲線を使った場合の閾値 $\theta$ は生物的にはニューロンの個性を表現する値です。
$\theta$ が大きければ興奮しにくく(すなわち鈍感)、小さければ興奮しやすい(すなわち敏感)という感受性を表します。
f:id:Yaju3D:20171106013953p:plain

発火の式 $y=a(w_1x_1+w_2x_2 - \theta)$ にて、 $\theta$ だけマイナス記号が付いているのは数学的に美しくありません。美しさが欠けることは数学が嫌うところです。また、マイナスは計算ミスを誘発しやすいという欠点を持ちます。そこで、 $-\theta$ を $b$ と置き換えたのが次の式となります。
$y=a(w_1x_1+w_2x_2 + b)$
こうすれば式として美しく、計算ミスも起こりにくくなります。
この $b$ をバイアス(bias)と呼びます。

バイアスの式表現

数式では b とするよりは $w_0$ として、次の式にします。
$y=a(w_0 + w_1x_1+w_2x_2)$

一般的に書き直すと、重みを $w$ ではなく $\theta$ として、 $\theta_0$ をバイアスとした場合、入力値 $x$ とすると $\theta_0$ と $x$ で次元が違うと扱いにくいので、最初の要素に $1$ をセットする。
f:id:Yaju3D:20180103202510p:plain

それを $x_0=1$ と定義して、 $x$ の最初の要素に $x_0$ を置くほうがより数学上では綺麗となる。
f:id:Yaju3D:20180103210343p:plain

$\theta$ を転置したものと $x$ を掛けたものを計算すると次の式になります。
$\theta^Tx = \theta_0x_0 + \theta_1x_1+ \theta_2x_2 + \cdot + \theta_nx_n$
更にこれを書き直すと、 $f_\theta(x) = \theta^Tx$ と簡易的な表現の式となる。

やる夫で学ぶ機械学習 - 多項式回帰と重回帰 - · けんごのお屋敷

リンゴとミカン

リンゴとミカンを例題に勾配降下法を計算していきます。上記と違うのは、訓練データがあることです。 f:id:Yaju3D:20160417230234p:plain
f:id:Yaju3D:20160419005112p:plain f:id:Yaju3D:20160419002003p:plain

以前の記事を参考にします。
yaju3d.hatenablog.jp

前提

f:id:Yaju3D:20171029165625p:plain
1層の全結合ニューラルネットワークを用いて、勾配降下法による重みの更新例を示します。
入力層ユニット数は2、出力層はユニット数が1のシンプルなネットワークです。損失関数は二乗誤差を用います。

No	入力	データ	教師データ
i	$x_1$	$x_2$	$t$
1	1	3	190
2	3	1	330
3	5	7	660

上表はトレーニングデータセットです。サンプル数は3で、1番目のサンプルを見ると、 $x_1=1$ 、 $x_2=3$ が与えられたときの教師データ $t=190$ (正解)になっています。

勾配 $\Delta E$ の計算式

出力層の出力値 $y$ は、入力層の出力値 $x$ を用いて、次のような一次多項式で表すことができます。
$a_1x_1+a_2x_2+b=y$
パラメーター　 $a_1,a_2,b$

これにトレーニングデータセットを当てはめると、次のような連結方程式が出来上がります。
$a_1+3a_2+b=y_1$
$3a_1+a_2+b=y_2$
$5a_1+7a_2+b=y_3$

この連結方程式は行列とベクトルを用いて次のように表すことが出来ます。

  
    w　　　　　X　　　　   Y
   重み　　入力データ　出力データ(推測値)

今回はバイアスbは 0 とするので除外しました。そうしないリンゴとミカンの金額(重み)を求めたいのにバイアスを含む3つ値が求まってしまいます。

  
    w　　　　　X　　　　   Y
   重み　　入力データ　出力データ(推測値)

誤差を含めた式と行列を表現すると下記のようなります。
$y=a_1x_1 + a_2x_2 + 誤差 e$

入力データを $X$ 、重み(パラメーター)を $w$ 、出力データ(推測値) $Y$ としています。 $w$ と $X$ を用いると、出力データ $Y$ は次の式で表すことができます。
$wX=Y$
また、教師データは、 $t$ を用いて次のように表します。
$t=(190 \quad 330 \quad 660)$

損失関数には二乗誤差を使用します。誤差は次のような式で表すことができます。
$E=\displaystyle \frac{1}{2} (Y - t)^2$
$\quad=\displaystyle \frac{1}{2} (wX - t)^2$
勾配 $\Delta E$ は、誤差 $E$ を重み $w$ で微分すると、勾配 $\Delta E$ を次のような式になります。
$\Delta E = \displaystyle \frac{\partial E}{\partial w} = (Y - t)X^T$
$X^T$ ： $X$ の転置行列、 $(Y - t)$ ：誤差信号 $\delta$

今回、 $(Y - t)$ を誤差信号と呼び、記号 $\delta$ (デルタ)で表します。
勾配 $\Delta E$ は、誤差信号 $\delta$ と、入力データ $X$ から求めることができます。入力データはすでにわかっている値なので、誤差信号の値を求めれば、勾配 $\Delta E$ を求めることができ、そして勾配 $\Delta E$ がわかれば、式 $w \leftarrow w-\eta\Delta E$ で重みを $w$ を更新することができます。 $\eta$ ：学習係数

初期値の設定

初めに、重み $w$ と学習係数 $\eta$ に適当な初期値を設定します。ここでは学習係数 $\eta$ は 0.02 とし、重み $w$ の初期値を10円と20円から、バイアスは 0 にして次のように設定します。
$w=(a_1 \quad a_2) = (10 \quad 20)$

重みの更新

①～③の手順で重みの更新を行います。

①現在の重みで推測値を求める

入力データ $X$ と現在の重み $w$ から、推測値 $Y$ を求めます。
推測値

ここで、全体の誤差をいったん計算してみます。損失関数には二乗誤差を使用するので、全体の誤差 $E$ は次のように計算します。

現在の値
教師データ $t=(190 \quad 330 \quad 660)$
推測値　　 $Y=( 70 \quad 50 \quad 190)$
全体の誤差
$E=\displaystyle \sum_{n=1}^{3} \frac{1}{2}(y_n - t_n)^2$
$\quad=\displaystyle \frac{1}{2}(y_1 - t_1)^2 + \frac{1}{2}(y_2 - t_2)^2 + \frac{1}{2}(y_3 - t_3)^2$
$\quad=\displaystyle \frac{1}{2}(70 - 190)^2 + \frac{1}{2}(50 - 330)^2 + \frac{1}{2}(190 - 660)^2$
$\quad=\displaystyle \frac{1}{2}(-120)^2 + \frac{1}{2}(-280)^2 + \frac{1}{2}(-470)^2$
$\quad=\displaystyle 7200 + 39200 + 110450$
$\quad=\displaystyle 156850$

②勾配 $\Delta E$ を計算する

現在の重み $w$ に対する勾配 $\Delta E$ を計算します。
入力データを転置行列 $X^T$ にするのは、行列の掛け算の定義で「行列Aの列数(横の個数)と、行列Bの行数(縦の個数)が等しくないと掛け算できない」ためです。
行列A( $Y-t$ ) 1行3列と行列B( $X^T$ ) 3行2列にして掛け算させます。行列の積

現在の値
教師データ $t=(190 \quad 330 \quad 660)$
推測値　　 $Y=( 70 \quad 50 \quad 190)$

入力データ　  

勾配

③重みを更新する

②で求めた勾配 $\Delta E$ を用いて、現在の重み $w$ を更新します。学習係数 $\eta$ は 0.02 としています。

現在の値
現在の重み $w=(10 \quad 20)$
勾配　　 $\Delta E=(-3310 \quad -3930)$
更新後の重み
$w \leftarrow w-\eta\Delta E$
$\quad=(10 \quad 20) - 0.02 \times (-3310 \quad -3930)$
$\quad=(10 \quad 20) - (-66.2 \quad -78.6)$
$\quad=(10 - (-66.2) \quad 20 - (-78.6))$
$\quad=(76.2 \quad 98.6)$

これで重み $w$ が更新されました。ここで、更新後の重み $w$ を使って推測値を求め、全体の誤差を再び計算してみます。

現在の値
教師データ $t=(190 \quad 330 \quad 660)$

推測値

全体の誤差
$E=\displaystyle \sum_{n=1}^{3} \frac{1}{2}(y_n - t_n)^2$
$\quad=\displaystyle \frac{1}{2}(y_1 - t_1)^2 + \frac{1}{2}(y_2 - t_2)^2 + \frac{1}{2}(y_3 - t_3)^2$
$\quad=\displaystyle \frac{1}{2}(372 - 190)^2 + \frac{1}{2}(327.2 - 330)^2 + \frac{1}{2}(1071.2 - 660)^2$
$\quad=\displaystyle \frac{1}{2}(182)^2 + \frac{1}{2}(-2.8)^2 + \frac{1}{2}(411.2)^2$
$\quad=\displaystyle 16562 + 3.92 + 84542.72$
$\quad=\displaystyle 101108.64$

全体の誤差は 101108.64 となり、重みの誤差前の 156850 より小さくなっていることが分かります。

更新の繰り返し

以上の①～③の計算で、全サンプル(今回は2サンプル)の更新が1回終わりました。これで1エポックを終了したことになります。
更新後の重み $w$ を用いて、①～③をもう一度繰り返せば、2エポックが終了となります。

最後に

計算の繰り返しはコンピューターの得意なところです。
次回はこの計算が本当に合っているのか、Pythonを使って実証してみたいと思います。

デジタル・デザイン・ラボラトリーな日々

アラフィフプログラマーが数学と物理と英語を基礎からやり直す。https://qiita.com/yaju

ディープラーニング(深層学習)を理解してみる(勾配降下法：計算方法)

はじめに

勾配降下法

１.初期設定

２．変位ベクトルを算出

各計算結果の求め方

３．位置を更新

４．２と３の繰り返し

バイアスについて

切片(せっぺん)

閾値(しきいち)

バイアスの式表現

リンゴとミカン

前提

勾配 $\Delta E$ の計算式

初期値の設定

重みの更新

①現在の重みで推測値を求める

②勾配 $\Delta E$ を計算する

③重みを更新する

更新の繰り返し

最後に

はじめに

勾配降下法

１.初期設定

２．変位ベクトルを算出

各計算結果の求め方

３．位置を更新

４．２と３の繰り返し

バイアスについて

切片(せっぺん)

閾値(しきいち)

バイアスの式表現

リンゴとミカン

前提

勾配の計算式

初期値の設定

重みの更新

①現在の重みで推測値を求める

②勾配を計算する

③重みを更新する

更新の繰り返し

最後に

勾配 $\Delta E$ の計算式

②勾配 $\Delta E$ を計算する